基于多模型融合的问答方法及系统与流程

文档序号：19787036发布日期：2020-01-24 13:43阅读：来源：国知局

技术特征：

1.一种基于多模型融合的问答方法，其特征在于，包括：

构建知识库和知识图谱，其中，所述知识库包括用于存储源知识的源知识库，用于存储同义词、关键词集合和问题模板的语法库，用于存储常问问题集和答案的faq问题库，所述知识图谱为基于有标签数据的行业相关法律、规定以及管理制度的知识数据集的知识图谱；

结合所述知识库和所述知识图谱对所输入的原始问题进行问题解析，得到问题解析数据，其中，所述问题解析数据包括所述原始问题中的关键字、提问的实体名称，问题分类以及可能的待匹配问题模板；

基于融合模型指示的匹配方法检索所述问题分析数据，得到所述原始问题对应的问题答案，其中，所述融合模型包括知识图谱推理模型、tf-idf模型、siamese模型和bert模型。

2.根据权利要求1所述的方法，其特征在于，所述构建语法库和知识图谱，包括：

构建基于有标签数据的行业相关法律、规定以及管理制度的知识数据集的知识图谱，所述知识数据集中的每条记录的文本和类别一一对应；

对所采集的问题样例进行预处理得到简化问题样例，使用分词和词性标注建立语法库对应的语法树。

3.根据权利要求2所述的方法，其特征在于，所述对所采集的问题样例进行预处理得到简化问题样例，使用分词和词性标注建立语法库对应的语法树，包括：

根据所采集问题实例对应的关系和属性对其进行分类，使用命名实体识别分词，并去除停用词后提取只包含关键字的简化问题样例；

将涉及同一关系或属性的简化问题样例归为同一类的问题模板；

为每一个问题模板配置从所述知识图谱中提取该问题模板的答案的路径和从原始问题中提取答案的约束条件；

对所述简化问题样例进行命名实体识别，采用识别出的分词和对应的词性标注建立语法树，所述语法树指示的关键词与问题小类索引之间的映射关系构成问题模板库。

4.根据权利要求3所述的方法，其特征在于，所述结合所述知识库和所述知识图谱对所输入的原始问题进行问题解析，得到问题解析数据，包括：

基于所述知识库和所述知识图谱对所输入的原始问题进行预处理，确定所述原始问题对应的关键字；

基于所述问题模板库确定所述原始问题的关键字对应的问题分类；

判断所述原始问题对应的实际提问次数，根据所述实际提问次数为所述原始问题分配待匹配问题模板。

5.根据权利要求4所述的方法，其特征在于，所述基于所述知识库和所述知识图谱对所输入的原始问题进行预处理，确定所述原始问题对应的关键字，包括：

当确定所输入的原始问题是不存在拼写错误时，对所述原始问题进行标点过滤、停用词过滤、同义词转换以及数字转换为中文数据；；

对所述原始问题进行命名实体识别得到对应的实体指称，基于实体链接将所述实体指称链接到所述知识图谱的图谱节点；

采用含有专业词语的词典对所述原始问题中除所述实体指称外的剩余部分进行分词，将分词得到的词语在所述语法库中进行匹配，确定对应的关键字。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述实体指称无法链接至所述图谱节点时，将所述faq问题库中的所有问题确定为待匹配问题模板。

7.根据权利要求5所述的方法，其特征在于，所述基于所述融合模型指示的匹配方法检索所述问题分析数据，得到所述原始问题对应的问题答案，包括：

当所述待匹配问题模板大于1个或者无法链接到所述图谱节点时，采用融合模型计算所述原始问题与待匹配问题模板的短文相似度，生成多个候选答案；

选取相似度最大的常问问题为候选问题，若所述原始问题与所述待匹配问题模板的相似度大于相似度阈值，将所述原始问题匹配到所述候选问题；

根据匹配到的候选问题与所述faq问题库指示的问题与答案的映射关系选取对应的答案作为所述原始问题的答案。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当所述待匹配问题模板只有1个且从所述知识图谱中检索到对应的三元组时，将三元组问题作为候选问题，并确定该候选问题对应的图谱候选答案集。

9.根据权利要求7所述的方法，其特征在于，所述采用融合模型计算所述原始问题与待匹配问题模板的短文相似度，生成多个候选答案，包括：

基于tf-idf模型生成原始问题的tf-idf向量对应的稀疏矩阵，计算所述稀疏矩阵与所述待匹配问题模板之间的相似度，根据相似度排序从高到低排名前k的问题作为第一候选答案集，并记录相似度权重ai；

采用siamese模型计算所述原始问题与所述第一候选答案集之间的相似度，并返回置信度从高到低排名前k的问题作为候选答案集，记录相似度权重bi；

采用bert模型计算所述原始问题与所述待匹配问题模板两两之间的语义相似度，根据所述语义相似度排序后得出最相似的k个问题作为第三候选答案集，记录相似度权重ci；

基于相似度权重将所述图谱候选答案集、第一候选答案集、第二候选答案集和第三候选答案集进行融合，结果所述原始问题与候选问题的字向量和词向量，训练对应的二分类神经网络；

采用所述二分类神经网络将softmax得到的正类的概率作为候选答案的概率，并将最终的候选答案以概率降序输出，取置信度最高的作为最终的答案输出。

10.一种基于多模型融合的问答系统，其特征在于，包括：

基础数据构建模块，用于构建知识库和知识图谱，其中，所述知识库包括用于存储源知识的源知识库，用于存储同义词、关键词集合和问题模板的语法库，用于存储常问问题集和答案的faq问题库，所述知识图谱为基于有标签数据的行业相关法律、规定以及管理制度的知识数据集的知识图谱；

原始问题分析模块，用于结合所述知识库和所述知识图谱对所输入的原始问题进行问题解析，得到问题解析数据，其中，所述问题解析数据包括所述原始问题中的关键字、提问的实体名称，问题分类以及可能的待匹配问题模板；

答案搜索模块，用于基于融合模型指示的匹配方法检索所述问题分析数据，得到所述原始问题对应的问题答案，其中，所述融合模型包括知识图谱推理模型、tf-idf模型、siamese模型和bert模型。

完整全部详细技术资料下载

当前第2页1 2 3