本发明涉及自然语言处理npl,具体而言涉及一种基于上下文语义检索的图谱问答方法、系统与计算机可读介质。
背景技术:
1、目前,基于标准表格的问答(根据给定的表格,针对表格相关内容的查询、推理问题,提供对应的智能问答)变得越来越重要,现有技术通常是将问题解析成对应的sql语句以实现问答,而将标准表格数据转换成三元组构建成图谱并在图谱上做问答,以知识图谱问答系统完成问答任务是常见的表格问答方案。
2、现有技术中,将标准表格问答任务定义成基于知识图谱的问答任务,即通过对用户输入query(问题)进行语义解析,生成结构化查询语句,从给定知识库中选择若干实体或属性值作为该问题的答案,即为现有的知识图谱问答系统,其通常需要借助深度神经网络进行长时间的训练,且在训练时需要大量的标注数据,这种情况无法适用于需要快速体验问答效果而又缺乏训练数据的场景。
技术实现思路
1、根据本发明目的的第一方面,提供一种基于上下文语义检索的图谱问答方法,包括:
2、步骤1、对用户输入的问题进行纠错处理,生成符合格式要求的问句;
3、步骤2、基于上下文语义检索构建预训练模型,对所述问句进行语义检索,获得候选s、p、o;
4、步骤3、结合多层滑动窗口精筛算法对所述候选s、p、o进行精筛,得到目标s、p、o;
5、步骤4、判断所述目标s、p、o的问题类型,通过图查询语句生成模块生成与问题类型相应的图查询语句;
6、步骤5、在图数据库上执行所述图查询语句并解析查询结果,生成符合格式要求的问题答案以反馈给用户。
7、进一步地,前述步骤1中,对用户输入的问题进行纠错处理,生成符合格式要求的问句,包括:
8、判断用户输入的问题是否存在错别字、错误拼音;
9、若用户输入的问题存在错别字,则通过query纠错模块对错别字进行矫正,将正确的汉字替换错别字,生成符合格式要求的问句;
10、若用户输入的问题存在错误的拼音,则通过query纠错模块对错误的拼音进行矫正,将正确的汉字替代错误的拼音,生成符合格式要求的问句;
11、若用户输入的问题不存在错别字和错误的拼音,则直接生成符合格式要求的问句。
12、进一步地,前述步骤2中,基于上下文语义检索构建预训练模型,通过优化负对数似然函数进行训练,并以loss损失函数形式进行表示,如下:
13、
14、其中,q表示问句,c表示候选的向量表,s(q,c)表示整个语句整体标准的向量的匹配相似度。
15、进一步地,前述步骤2中,对所述问句进行语义检索,获得候选s、p、o,包括:
16、将问句和候选向量表的令牌编码设置为上下文本向量,输入所述预训练模型中,通过指针网络找到主语;
17、将所述主语与所述上下文本向量连接,获取所述主语在问句文本中涉及到的所有谓语;
18、通过指针网络找到每个谓语在问句文本中对应的宾语;
19、输出找到的主语、谓语和宾语,得到候选s、p、o。
20、进一步地,前述步骤3中,结合多层滑动窗口精筛算法对所述候选s、p、o进行精筛,得到目标s、p、o,包括:
21、利用哈希集存储候选s、p、o的字符串,并将所述哈希集作为滑动窗口;
22、通过所述滑动窗口滑动s字符索引,去除最大长度的子字符串;
23、再次进行窗口滑动,去除其它长度的子字符串,只保留平均长度的子字符串;
24、选择保留的子字符串所对应的字符,获得目标s;
25、再通过所述滑动窗口滑动p、o字符索引,同步去除最大长度的子字符串;
26、再次进行窗口滑动,同步去除其它长度的子字符串,只保留平均长度的子字符串;
27、选择保留的子字符串所对应的字符,获得目标p、o。
28、进一步地,判断所述目标s、p、o的问题类型,包括:
29、通过query类型判断模块对所述目标s、p、o生成的索引进行问题类型判断;
30、若所述目标s、p、o生成的索引为ops,则问题类型为反查类问题;
31、若所述目标s、p、o生成的索引为sop,则问题类型为关系类问题;
32、若所述目标s、p、o生成的索引为spo,则问题类型为直查类问题。
33、进一步地,前述步骤4中,通过图查询语句生成模块生成与问题类型相应的图查询语句,包括:
34、若为反查类问题,则通过反查类图查询语句生成模块生成图查询语句;
35、若为关系类问题,则通过关系类图查询语句生成模块生成图查询语句;
36、若为直查类问题,则通过直查类图查询语句生成模块生成图查询语句。根据本发明目的的第二方面,提供一种基于上下文语义检索的图谱问答系统,包括:
37、一个或多个处理器;
38、存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括如基于上下文语义检索的图谱问答方法的流程。
39、根据本发明目的的第三方面,提供一种存储软件的计算机可读介质,所述软件包括能通过一个或多个计算机执行的指令,所述指令通过这样的执行使得所述一个或多个计算机执行操作,所述操作包括如基于上下文语义检索的图谱问答方法的流程。
40、与现有技术相比,本发明所达到的技术效果:本发明方法通过对问句进行纠错处理,提高知识图谱问答系统对问题的解析准确度,同时,通过上下文词汇匹配的打分函数和bert的cls表征方式对问句词汇进行语义匹配运算,根据整个句子的整体标准的向量的相似度对目标spo进行判断,提高了词汇匹配的准确率;另一方面,本发明通过多层滑动窗口精筛算法实现对目标spo的精准判断,为后续确定问题类型提供精准保障,避免对大量标注数据和模型训练的需求,以适用于现有知识图谱系统中需要快速体验问答效果而又缺乏训练数据的场景。
41、应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
42、结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
1.一种基于上下文语义检索的图谱问答方法,其特征在于,包括:
2.根据权利要求1所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤1中,对用户输入的问题进行纠错处理,生成符合格式要求的问句,包括:
3.根据权利要求2所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤2中,基于上下文语义检索构建预训练模型,通过优化负对数似然函数进行训练,并以loss损失函数形式进行表示,如下:
4.根据权利要求3所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤2中,对所述问句进行语义检索,获得候选s、p、o,包括:
5.根据权利要求4所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤3中,结合多层滑动窗口精筛算法对所述候选s、p、o进行精筛,得到目标s、p、o,包括:
6.根据权利要求1~5中任一所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤4中,判断所述目标s、p、o的问题类型,包括:
7.根据权利要求6所述的基于上下文语义检索的图谱问答方法,其特征在于,前述步骤4中,通过图查询语句生成模块生成与问题类型相应的图查询语句,包括:
8.一种基于上下文语义检索的图谱问答系统,其特征在于,包括:
9.一种存储软件的计算机可读介质,其特征在于:所述软件包括能通过一个或多个计算机执行的指令,所述指令通过这样的执行使得所述一个或多个计算机执行操作,所述操作包括如权利要求1~7中任意一项所述的基于上下文语义检索的图谱问答方法的流程。