一种知识问答方法、知识问答系统及计算机可读存储介质与流程

文档序号:16811698发布日期:2019-02-10 13:43阅读:183来源:国知局
一种知识问答方法、知识问答系统及计算机可读存储介质与流程

本发明涉及信息搜索技术领域,尤其涉及一种知识问答方法、知识问答系统和计算机可读存储介质。



背景技术:

随着互联网的快速发展与普及,互联网信息已经呈现出指数增长及碎片化的特点,给专业人员在互联网上搜索专业信息带来了更多干扰,专业人员难以快速搜索到需要的专业信息,严重影响了专业研究和学习的效率。

目前,常见的互联网信息搜索方法是搜索引擎和知识问答系统,搜索引擎是根据关键词匹配多知识领域的海量信息并为呈现用户呈现的搜索信息较为冗余、杂乱以及准确性较低,知识问答系统分为基于知识库的问答系统、基于受限语言的问答系统、基于常用问答对的问答系统和基于信息搜索的问答系统,这些问答系统主要采用两种问答模式:第一种问答模式,专业人员在第一客户端上输入知识问题,该知识问题经服务器发送给专家所在的第二客户端,专家在第二客户端上输入知识答案,该知识答案经服务器反馈给第一客户端,第一种问答模式的实时性差,知识答案更为准确;第二种问答模式,用户在客户端上输入知识问题并将该知识问题发送给服务器,服务器对知识问题中的关键词进行分类,得到查询语言,并向客户端反馈查询语言所查询到的知识答案,第二种问答模式通过服务器自动查询知识答案具有较好的实时性,但是查询语言的准确性较低,也会降低知识答案的准确性。



技术实现要素:

本发明所要解决的技术问题是针对现有技术中知识问答模式无法兼顾知识查询的实时性和知识反馈的准确性的不足,提供一种知识问答方法、知识问答系统和计算机可读存储介质。

本发明解决上述技术问题的技术方案如下:

依据本发明的第一方面,提供了一种知识问答方法,包括以下步骤:

步骤100、接收问答请求,所述问答请求携带有源问题文本信息;

步骤200、根据所述源问题文本信息和预设问题标签模板确定查询语言;

步骤300、从动态更新的知识管理库中查询与所述查询语言匹配的推荐实体组,基于所述推荐实体组生成知识图谱;

步骤400、发送所述知识图谱。

依据本发明的第二方面,提供了一种知识问答系统,包括:客户端和知识问答服务器;所述知识问答服务器,用于接收问答请求,所述问答请求携带有源问题文本信息;根据所述源问题文本信息和预设问题标签模板确定查询语言;从动态更新的知识管理库中查询与所述查询语言匹配的推荐实体组,基于所述推荐实体组生成知识图谱;发送所述知识图谱。

依据本发明点额第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器运行时实现第一方面所述的方法步骤。

本发明的一种知识问答方法、知识问答系统及计算机可读存储介质的有益效果是:利用源问题文本信息和预设问题标签模板确定查询语言,预设问题标签模板可以检验查询语言的完整性,提高了查询语言的准确性;在动态更新的知识管理库不断更新实体组的同时,通过查询语言从知识管理库中自动查询推荐实体组,查询语言和知识管理库共同提高了推荐实体组的准确性以及实时性;基于推荐实体组生成知识图谱,发送知识图谱,知识图谱形式统一归纳了推荐实体组,为用户提供专业化的知识答案。

附图说明

图1为本发明实施例提供的一种知识问答方法的流程示意图;

图2为本发明实施例提供的知识图谱的示意图;

图3为本发明实施例提供的一种知识库系统的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

实施例一

如图1所示,本发明实施例的一种知识问答方法的流程示意图,本实施例以疾病问题信息作为源问题文本信息进行描述,包括以下步骤:

步骤100、接收问答请求,问答请求携带有源问题文本信息;

步骤200、根据源问题文本信息和预设问题标签模板确定查询语言;

步骤300、从动态更新的知识管理库中查询与查询语言匹配的推荐实体组,基于推荐实体组生成知识图谱;

步骤400、发送知识图谱。

例如,源问题文本信息为“小便短黄、月经量少怎么治疗?”,查询语言为(小便短黄,治疗,?)(月经量少,治疗,?),如图2所示为本实施例提供的知识图谱。

利用源问题文本信息和预设问题标签模板确定查询语言,预设问题标签模板可以检验查询语言的完整性,提高了查询语言的准确性;在动态更新的知识管理库不断更新实体组的同时,通过查询语言从知识管理库中自动查询推荐实体组,查询语言和知识管理库共同提高了推荐实体组的准确性以及实时性;基于推荐实体组生成知识图谱,发送知识图谱,以知识图谱形式对推荐实体组进行统一归纳,可以用户呈现专业化的知识信息。

优选地,步骤200具体包括:

步骤210、对源问题文本信息进行分词,得到待标注实体,按照预定的词性标注模板对待标注实体中的每个待标注实体进行词性标注,得到待分类实体;

步骤220、按照预定的问题分类模板对待分类实体进行抽象分类,得到抽象问题文本信息集;

步骤230、通过预定的分类学习算法对抽象问题文本信息集进行分类训练,得到分类问题标签;

步骤240、基于待标注实体、分类问题标签和预设问题标签模板确定查询语言。

例如,采用中文分词工具对疾病问题信息进行分词,得到待标注实体,中文分词工具可以采用ansj分词、结巴分词、ictclass分词等,待标注实体为(小便短黄,月经量少,治疗);从词性标注模板中查询将该待标注实体中的“小便短黄,月经量少”对应的词性为标注“疾病”和“治疗”对应的词性为“治疗方式”,获得待分类实体为(疾病,治疗方式);从问题分类模板中查找待分类实体对应的抽象分类问题,获得抽象问题文本信息集为“symptom怎么治疗?”、“symptom是什么疾病的病症?”和“symptom是什么病?”等,通过贝叶斯分类器中存储的分类学习算法对抽象问题文本信息集进行分类训练,得到分类问题标签为“疾病”。

其中,词性标注模板与问题分类模板的获得方式类似,该获取方式可以通过专家人工标注得到后以列表形式或者语序图形式上传到知识管理库中,问题分类模板如表1所示。

表1

通过词性标注模板对待标注实体中的关键词进行词性标注,赋予待分类实体不同领域的属性,词性标注模板提高了待分类实体的准确性;通过问题分类模板对待分类实体进行抽象分类,问题分类模板将待分类实体抽象到统一的概念,方便分类待分类实体,并且可以丰富抽象问题文本信息集,提高了抽象问题文本信息集的准确性。

优选地,步骤240具体包括:

若预设问题标签模板存在分类问题标签,则将待标注实体转化为查询语言;若预设问题标签模板不存在分类问题标签,则对待标注实体进行问题拓展,得到拓展问题文本信息,并将拓展问题文本信息转化为查询语言。

预设问题标签模板可以是预存储在知识管理库中的标准词典,例如:中医药词典,在预设问题标签模板存在分类问题标签时,表示源问题文本信息具有完整性,问题意图明显;在预设问题标签模板不存在分类问题标签时,表示源问题文本信息具有不完整性,问题意图不明显,此时,可以按照预设问题标签模板对待标注实体进行问题扩展,得到拓展问题文本信息。

通过预设问题标签模板检验待标注实体的完整性,并对不完整的待标注实体进行问题扩展,得到完整的拓展问题文本信息,了解问题意图,在源问题文本信息不完整的情况下,也可以利用查询语言查询推荐实体组,以向用户反馈知识图谱。

优选地,步骤300中,从动态更新的知识管理库中查询与查询语言匹配的推荐实体组具体包括:

步骤310、将分布式文本数据库和知识标准数据库中的源知识文本信息批量更新到知识提取库中;

步骤320、按照预定的命名实体识别模型对在知识提取库中的源知识文本信息进行识别,得到待抽取实体集;

步骤330、按照预定的知识关系抽取策略对在知识提取库中的待抽取实体集进行抽取,得到待更新实体集;

步骤340、按照预定的更新周期,将知识提取库中的待更新实体集动态更新到知识管理库中;

步骤350、按照预定的知识组合策略对待更新实体集中的问题实体、答案实体和链接实体进行组合,得到知识管理库中的更新实体组,并基于查询语言同步查询知识管理库中的推荐实体组。

如图3所示为一种知识库系统的结构示意图,知识提取库存储有命名实体识别模型和知识关系抽取策略,知识管理库存储有知识组合策略。

采用restful接口或者以flume数据流方式将源知识文本信息批量更新到知识提取库中;命名实体识别模型可以基于原命名实体模型对训练预料进行学习训练得到待测试的命名实体识别模型,并且通过待测试的命名实体识别模型对测试预料进行学习后得到,可以提高命名实体识别模型的准确性。

知识关系抽取策略具体包括:预处理策略和关系提取策略;预处理策略包括:采用ansj工具对待抽取实体集进行分词,得到分词文本信息,并且采用nlp工具对分词文本信息进行词性标注、命名实体标注自己语法依赖处理,得到预处理文本信息;关系提取策略包括:采用相似度计算算法和词典对预处理文本信息进行链接,得到候选实体三元组,对候选实体三元组中的链接关系进行标签标注,得到真值标签集,并且采用deepdive关系提取工具,对候选实体三元组和真值标签集进行训练,得到待更新实体集,待更新实体集对应的概率值大于阈值。

更新周期可以是12小时、一天或者一周,可以根据第更新实体的数量选择设置知识管理库的更新周期。

知识组合策略包括采用相似度计算对待更新实体集中的问题实体、答案实体和链接实体进行实体链接,得到相似实体集,采用聚类算法对相似实体集进行同名实体消歧处理,得到待融合实体集,对待融合实体集进行链接融合,得到更新实体组。

通过结合命名实体识别模型和知识关系抽取策略从源知识文本信息中抽取待更新实体集,提高了实体抽取效率;采用知识组合策略将非结构化的待更新实体集转化为结构化的更新实体组,在知识管理库更新的同时,可以同步查询推荐实体组,提高了知识管理库的管理效率。

优选地,在步骤400之后,还包括以下步骤:

步骤500、接收知识图谱;

步骤600、按照预定的答案排序公式对知识图谱中的多个答案实体进行排序,得到答案显示顺序;

步骤700、按照答案显示顺序显示所有答案实体。

例如,答案实体包括小便短黄、月经量少和月经先期,用户可以选择月经先期,重新继续执行步骤100-700,完成第二次知识问答,在第二次知识问答过程中,查询语言“(为小便短黄,治疗,?)(月经量少,治疗,?)(经行腹痛,治疗,?)”。

按照答案排序公式确定知识图谱中的所有答案实体的显示顺序,按照答案显示顺序显示所有答案实体,方便用户快速选择答案实体,并结合选组的答案实体和二次源问题文本信息,方便用户二次知识查询,提高了知识问答效率和深度认知专业知识。

优选地,答案实体排序公式为:

其中,pj代表知识图谱中的第j个答案实体的显示顺序,k1第j个答案实体对应的权重调节因子,k2代表第j个答案实体对应的实体调节因子,ωji代表知识图谱中的第j个答案实体所对应的第i个权重值,αji代表知识图谱中与第j个答案实体相关联的所有实体的总个数i,1≤j≤m,m代表知识图谱中的答案实体的总个数,n代表查询语句中的所有问题实体的总个数。

权重调节因子k1和实体调节因子k2的取值范围均可以在0-1之间,可以根据不同的答案实体改变权重调节因子k1和实体调节因子k2的取值,例如:k1为0.5,k2为0.7。

通过答案实体排序公式结合权重值和实体个数,对知识图谱中的所有答案实体进行排序,增强了答案显示顺序的可信度和准确度。

实施例二

本实施例中,一种知识问答系统,包括:问答请求接收模块、查询语言确定模块、知识图谱生成模块和知识图谱发送模块;问答请求接收模块,用于接收问答请求,问答请求携带有源问题文本信息;查询语言确定模块,用于根据源问题文本信息和预设问题标签模板确定查询语言;知识图谱生成模块,用于从动态更新的知识管理库中查询与查询语言匹配的推荐实体组,基于推荐实体组生成知识图谱;知识图谱发送模块,用于发送知识图谱。

优选地,查询语言确定模块具体用于:对源问题文本信息进行分词,得到待标注实体,按照预定的词性标注模板对待标注实体中的每个待标注实体进行词性标注,得到待分类实体;按照预定的问题分类模板对待分类实体进行抽象分类,得到抽象问题文本信息集,通过预定的分类学习算法对抽象问题文本信息集进行分类训练,得到分类问题标签;基于待标注实体、分类问题标签和预设问题标签模板确定查询语言。

优选地,查询语言确定模块具体用于:若预设问题标签模板存在分类问题标签,则将待标注实体转化为查询语言;若预设问题标签模板不存在分类问题标签,则对待标注实体进行问题拓展,得到拓展问题文本信息,并将拓展问题文本信息转化为查询语言。

优选地,知识图谱生成模块具体用于:将分布式文本数据库和知识标准数据库中的源知识文本信息批量更新到知识提取库中;按照预定的命名实体识别模型对在知识提取库中的源知识文本信息进行识别,得到待抽取实体集;按照预定的知识关系抽取策略对在知识提取库中的待抽取实体集进行抽取,得到待更新实体集;按照预定的更新周期,将知识提取库中的待更新实体集动态更新到知识管理库中;按照预定的知识组合策略对待更新实体集中的问题实体、答案实体和链接实体进行组合,得到知识管理库中的更新实体组,并基于查询语言同步查询知识管理库中的推荐实体组;按照预定的知识组合策略对待更新实体集中的问题实体、答案实体和所述链接实体进行组合,得到知识管理库中的更新实体组。

优选地,还包括问答请求发送模块、知识图谱接收模块、答案显示顺序确定模块和答案实体显示模块;问答请求发送模块,用于发送知识问答请求;知识图谱接收模块,用于接收知识图谱;答案显示顺序确定模块,用于按照预定的答案排序公式对知识图谱中的多个答案实体进行排序,得到答案显示顺序;答案实体显示模块,用于按照答案显示顺序显示所有答案实体。

优选地,答案实体排序公式为:

其中,pj代表知识图谱中的第j个答案实体的显示顺序,k1第j个答案实体对应的权重调节因子,k2代表第j个答案实体对应的实体调节因子,ωji代表知识图谱中的第j个答案实体所对应的第i个权重值,αji代表知识图谱中与第j个答案实体相关联的所有实体的总个数i,1≤j≤m,m代表知识图谱中的答案实体的总个数,n代表查询语句中的所有问题实体的总个数。

实施例三

本实施例中,一种计算机存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序介质可与通信设备通信,该计算机程序被通信设备中的处理器运行时实现实施例一所述的方法步骤,该方法步骤参见实施例一,此处不再赘述。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1