一种提高问答系统泛化能力的方法与流程

文档序号：24306843发布日期：2021-03-17 00:59阅读：来源：国知局

技术特征：

1.一种提高问答系统泛化能力的方法，其特征在于：包括以下步骤：

s01）、通过词嵌入矩阵来获得相似词表；

s02）、通过相似问题生成来获得相似问题列表；

s03）、通过词向量、句向量来获得标准词与相似词、标准问题与相似问题的相似度；

s04）、基于相似词表、相似问题列表以及标准词与相似词、标准问题与相似问题的相似度对问答系统进行优化，在给定行业问答集的情况下，通过相似词和相似问题产生的信息扩充倒排索引的容量；针对倒排索引产生的相关问题列表，使用打分算法获得相关问题的得分，在所有的得分中乘上相似词、相似问题的权重，经过排序之后即可得到最终的排序结果；相似词、相似问题的权重就是标准词与相似词、标准问题与相似问题的相似度。

2.根据权利要求1所述的提高问答系统泛化能力的方法，其特征在于：通过词嵌入矩阵来获得相似词表的过程为：

s11）、选用开源的词向量或者训练词向量，训练词向量时，首先根据行业用户给定的对话语料使用关键词抽取算法抽取行业关键词，并以行业关键词为种子从网络中爬取行业弱相关知识，然后使用word2vec技术训练词嵌入矩阵；

s12）、获取行业关键词的相似词表，根据词嵌入矩阵，使用高维向量索引技术来构建词向量索引，并依次遍历行业关键词表，抽取行业关键词的相似词。

3.根据权利要求2所述的提高问答系统泛化能力的方法，其特征在于：抽取行业关键词的相似词时，去除包含标准词的词。

4.根据权利要求2所述的提高问答系统泛化能力的方法，其特征在于：使用余弦相似度来计算相似词与标准词的相似度并保存，标准词为抽取的行业关键词；相似词与标准词之间的相似度作为相似词对标准词的贡献度，如果用户问题中包括标准词，则对该标准词的贡献度为1；如果用户问题中包括相似词，则对该变准此的贡献度为其相似度值；基于相似词以及相似度与标准词之间的相似度构建行业关键词的相似词表。

5.根据权利要求1所述的提高问答系统泛化能力的方法，其特征在于：通过相似问题生成来获得相似问题列表的过程为：

s21）、行业相关问题爬取，依据行业关键词，爬取每个行业关键词的相关问题；

s22）、相似问题对生成，首先使用预训练模型i来进行句向量的抽取，使用高维向量索引来构建句向量索引，然后依次遍历所有行业相关问题，从句向量索引中抽取前k个最相似的问题；

s23）、相似问题生成模型的训练，采用预训练模型ii来进行相似问题生成模型的训练，输入训练集和标签，训练集由相似问题和非相似问题对等比例构成，损失函数由2部分组成，一个是相似问题生成产生的损失，另一个是分类任务产生的损失；

s24）、获取相似问题表，遍历问题库中的标准问题，使用预训练模型ii产生相似问题集；采用topk编码策略，设置模型一次生成n个相似问题，相似问题是逐字生成的，每生成一个字，从前topk个最可能的单词中，进行随机采样，将采样结果作为n个相似问题的下一个字。

6.根据权利要求5所述的提高问答系统泛化能力的方法，其特征在于：若生成的相似问题与标准问题太过接近，将所有生成的相似问题进行过滤操作；如果相似问题没有产生新词，仅仅是变换了标点、停用词，则过滤掉；相似问题中近似重复出现的问题也过滤掉。

7.根据权利要求5所述的提高问答系统泛化能力的方法，其特征在于：使用相似度来评估标准问题与相似问题之间的偏差，相似问题与标准问题之间的相似度作为相似问题对标准问题的贡献度，如果用户问题匹配到标准问题，则对标准问题的贡献度为1，如果用户问题匹配到相似问题，则相似问题对标准问题的贡献度为其相似度值。

8.根据权利要求5所述的提高问答系统泛化能力的方法，其特征在于：所述预训练模型为bert、roberta、xlnet、albert中的一种。

9.根据权利要求5所述的提高问答系统泛化能力的方法，其特征在于：预训练模型ii为unilm模型。

10.根据权利要求1所述的提高问答系统泛化能力的方法，其特征在于：倒排索引时，在所有的得分乘上相似词、相似问题的权重的基础上，再乘上一个权重系数，即为最终的得分。

技术总结
本发明提出了一种可以自动提高系统泛化能力、提高系统召回能力的方法，通过使用相似词和相似问题自动生成技术，从词和句子两个粒度来改善问答系统中的检索与排序，提高系统召回率，增强系统泛化能力，尽可能避免人工参与，极大的提高了系统的易用性。

技术研发人员：申冲;张汉同;张传锋;祖丕国;王太浩;朱锦雷
受保护的技术使用者：神思电子技术股份有限公司
技术研发日：2020.12.17
技术公布日：2021.03.16

完整全部详细技术资料下载

当前第2页1 2