一种基于负样本多样性的问答模型集成方法

文档序号：26279334发布日期：2021-08-13 19:36阅读：来源：国知局

技术特征：

1.一种基于负样本多样性的问答模型集成方法，其特征在于，包括

步骤1、对医疗问答对数据集进行预处理；

步骤2、负样本相似度排序；

步骤3、结合步骤2得到的负样本排序结果，对负样本进行分段采样，构建多个训练集并训练基模型；

步骤4、利用加权平均对步骤3中得到的基模型进行集成，从而得到最终的问答模型。

2.如权利要求1所述的基于负样本多样性的问答模型集成方法，其特征在于，第一步：中文医疗问答对数据集预处理；

1.1整合问答对数据集

删除一些未包含答案、表达不明确、问句或答句中包含图片的无效问答对；为了确保数据集的平衡性，删除疾病诊断类、疾病治疗类、疾病症状类、疾病原因类四大类之外的个别其他类问答句；将整合好的数据集提供给步骤1.2；

1.2去除停用词

利用停用词词表去除问答对数据集中问句的停用词，主要包括一些语气词、礼貌用语等使用频率较高又无实际含义的词汇；去除停用词后的结果提供给步骤1.3和步骤1.4；

1.3标注问答对正样本

对步骤1.2提供的数据集中每个问句对应的正确答案进行标注，由此获得问答对的正样本，将标注结果提供给步骤1.4；

1.4随机初始化问答对负样本

基于步骤1.3标注的问答对正样本，从步骤1.2提供的所有答案中随机给问句匹配答案，这个答案不能与正样本中答案相同，之后将这些问答对标注为负样本，从而完成问答对负样本的随机初始化；标注后即完成了步骤1对于问答对数据集的预处理工作，将预处理后的数据集中的问句提供给步骤2、步骤3和步骤4。

3.如权利要求1所述的基于负样本多样性的问答模型集成方法，其特征在于，第二步：负样本相似度排序；

2.1计算正负样本的词性相似度

对步骤1得到的问答对正样本和负样本中的答案，利用能够基于统计的方法给出词语在文本中重要程度的tfidf算法计算答案之间的距离，将结果提供给步骤2.2；

2.2计算词汇权重

步骤1所提供的的问答语料属于医疗领域，其中领域词汇往往比普通词汇更具有区分度和重要性，因此本发明在步骤2.1的基础上，通过赋予医疗领域词汇更高的权重来凸显领域词汇的重要性，即采用领域词加权的tfidf算法对正负样本的词形相似度距离计算进行优化；

权重的取值会直接影响相似度算法的性能，本发明设计了预实验来确定步骤1提供的问答语料中领域词汇和普通词汇的权重比值；预实验以acc@1为评价指标，通过调整普通词汇与领域词汇的权重比例来比较初始集成模型性能的变化；这里，初始集成模型采用组合了6个基于负样本词形相似度分段采样得到的bigru_cnn模型；

当普通词汇与领域词汇的权重比为0.6时初始集成模型的效果最好，因此在基于领域词加权的tfidf算法中，领域词汇与普通词汇的权重公式如公式(1)、(2)所示；其中ω1为领域词汇，c1为普通词汇，w′为基于词频和逆文本频率指数的原始权重，w(ω1)为加权后的领域词汇权重，w(c1)为加权后的普通词汇权重；

w(ω1)＝1*w′(ω1)(1)

w(c1)＝0.6*w′(c1)(2)

将w(ω1)和w(c1)引入到tfidf算法中，得到的词性相似度结果并进行由大到小排序，将排序后的结果提供给步骤3；

2.3计算正负样本中领域词汇间相似度

由于cmesh(chinesemedicalsubjectheadings)中的树状结构能清晰地展示医疗领域词间的语义关系，本发明利用cmesh来计算步骤1提供的正负样本中答案所包含医学领域词汇间的相似度，并将该相似度结果提供给步骤2.4；具体的，通过医学领域词汇ω1，ω2间的语义距离来计算领域词汇间的语义相似度sim(ω1,ω2)，相似度计算公式如公式(3)所示，其中，dist(ω1,ω2)代表领域词间的语义距离：

2.4计算正负样本的语义相似度

根据步骤2.3提供的领域词汇相似度，正负样本的答案间所对应的语义相似度按照公式(4)进行计算，并将计算结果由大到小排序后提供给步骤3；其中，m和n分别为两个句子中的词汇集合，n1,n2,…,nn为集合n中的词汇，医学领域词汇ω与句中词汇的最大相似度maxvalue(ω,n)的计算公式如公式(5)所示：

maxvalue(ω,n)＝max(sim(ω,n1),sim(ω,n2),…,sim(ω,nn))(5)。

4.如权利要求1所述的基于负样本多样性的问答模型集成方法，其特征在于，第三步：结合步骤2.2和步骤2.4得到的负样本排序结果，对负样本进行分段采样，构建多个训练集并训练基模型；

3.1分段采样

针对步骤2.2和步骤2.4得到的负样本排序结果，分别在词形和语义这两个相似度序列上对负样本进行均匀分段，并在不同段内采样，以构成不同训练集；这里，每个分段l中第i个问题所采集的负样本集满足对任意的j∈[1,k-1]，有其中k-1表示负样本的总数，表示第l个分段中的负样本集合；由于负样本序列按照从大到小排列，所以中包含的负样本与正样本语义相似度更高，而中包含的负样本与正样本语义相似度更低，l为分段数；

3.2确定分段数

分段数将直接决定基模型的个数以及基模型的学习粒度，因此本发明通过设计一个预实验来确定适用的分段数；预实验以acc@1为评价指标，并基于bigru_cnn模型结构进行；将分段数为3时采集到的负样本集分别与正样本结合，构成训练集并对模型进行训练，训练完毕后将得到基模型mi提供给步骤4。

5.如权利要求1所述的基于负样本多样性的问答模型集成方法，其特征在于，第四步：利用加权平均对步骤3中得到的基模型进行集成，从而得到最终的问答模型；

对步骤3提供的全部基模型mi(i∈2l)，按照加权平均的组合方式将各个基模型集成，权重wi(i∈2l)取决于基模型在验证集上的准确率pi，准确率高的基模型在整体模型中所占的权重比要更大；最终得到的集成模型预测概率h(x)如公式(6)、(7)所示；其中t为基模型的总个数，hi(x)为每个基模型预测的结果，wi是基模型各自对应的权重：

。

技术总结
一种基于负样本多样性的问答模型集成方法。自动问答系统的问答匹配阶段常通过集成模型来捕捉语料中多角度的信息，从而提升问答系统的准确性和稳定性。在中文医疗问答领域，现有问答模型集成方法大多数使用随机采样或单一相似度距离分段采样的方法获取负样本，忽略了负样本的多样性，进而导致基模型的多样性不足，影响了集成模型的效果。本发明根据正负样本间的多种相似度距离，分别对负样本进行排序和分段采样，由此构成多个训练样本集，并基于这些训练样本集训练出多个基模型最后进行集成，不仅弥补了基模型多样性的不足，也提升了问答模型的稳定性和准确率。

技术研发人员：方钰;翟鹏珺;崔雪
受保护的技术使用者：同济大学
技术研发日：2021.05.12
技术公布日：2021.08.13

完整全部详细技术资料下载

当前第2页1 2