文本匹配模型的训练方法及装置与流程

文档序号:37012284发布日期:2024-02-09 13:01阅读:21来源:国知局
文本匹配模型的训练方法及装置与流程

本申请涉及计算机,具体而言,涉及一种文本匹配模型的训练方法及装置。


背景技术:

1、文本与标签匹配是nlp领域中涉及句子语义相似度学习的问题。该任务的核心在于衡量文本之间的语义相似度,也即语义匹配。目前,主要有两种解决方法:双塔模式(bi-encoder)和交互模式(cross-encoder)。在双塔模式中,通常会使用两个编码器(encoder)将查询(query)和文件(document)分别编码成向量,然后通过相关性判别函数计算这两个向量之间的相似度。而在交互模式中,通常将两个句子拼接在一起,一次性输入给编码器,然后输出两个句子的语义得分。但是,现有的文本与标签匹配的方法还是存在由于文本标签的分布特性导致匹配的准确性不高的技术问题。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明实施例提供了一种文本标签确定方法及装置,以至少解决依据词频等进行标签提取、提取出的标签准确度不高的技术问题。

2、根据本发明实施例的一个方面,提供了一种文本匹配模型的训练方法,包括:将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。

3、根据本发明实施例的另一方面,还提供了一种文本匹配模型的训练装置,包括:输入模块,被配置为将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;划分模块,被配置为计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;训练模块,被配置为基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。

4、在本发明实施例中,将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。通过上述方案解决了现有技术中由于文本标签的分布特性导致匹配的准确性不高的技术问题。



技术特征:

1.一种文本匹配模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,利用交叉熵损失函数调整所述深度学习模型,包括:

3.根据权利要求2所述的方法,其特征在于,采用多通道映射将所述语义相似度和置信度映射为权重参数,包括:

4.根据权利要求2所述的方法,其特征在于,在构建所述交叉熵损失函数之后,所述方法还包括执行以下直至满足收敛条件:

5.根据权利要求2所述的方法,其特征在于,计算所述交叉熵损失函数中的每个参数的梯度,按照所述梯度的反方向更新所述每个参数,包括:

6.根据权利要求5所述的方法,其特征在于,计算所述交叉熵损失函数中的每个参数的梯度,利用所述动量项来按照所述梯度的反方向更新所述每个参数,包括:

7.根据权利要求1所述的方法,其特征在于,在将所述语义相似度与自适应相似度阈值进行比较之前,所述方法还包括:

8.一种文本匹配模型的训练装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。


技术总结
本申请提供了一种文本匹配模型的训练方法及装置,其中,该方法包括:将包括文本标签和未标注的文本的训练数据输入到深度学习模型中,得到所述未标注的文本的预测标签,其中,所述深度学习模型用于匹配所述未标注的文本标签和所述文本标签;计算所述预测标签和所述文本标签的语义相似度,将所述语义相似度与自适应相似度阈值进行比较,并基于比较结果对所述文本标签进行正负样本划分;基于划分后的所述文本标签和所述未标注的文本,利用交叉熵损失函数调整所述深度学习模型。本申请解决了现有技术中由于文本标签的分布特性导致匹配的准确性不高的技术问题。

技术研发人员:纪智辉,蒋正浩,李伟
受保护的技术使用者:世优(北京)科技有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1