一种科技文献类目自动映射模型训练与预测方法

文档序号:37310711发布日期:2024-03-13 20:59阅读:12来源:国知局
一种科技文献类目自动映射模型训练与预测方法

本发明涉及自然语言处理,具体为一种科技文献类目自动映射模型训练与预测方法。


背景技术:

1、在科技文献中,专利和图书期刊分别是产业界与学术界的科技创新信息来源,专利通常使用国际专利分类法(ipc)标识,而中文图书期刊则采用中国图书馆分类法(clc)分类,建立ipc类目与clc类目之间的映射有助于促进专利信息和图书期刊资源的整合和共享,对于知识的交叉应用和跨领域合作、推动科技创新和技术转化具有重要意义。

2、建立不同分类法的映射主要有人工标注和自动映射方法,人工标注尽管准确率高,但是人力成本高、时间周期长。随着计算机技术和人工智能的飞速发展,自动映射方法逐渐成为人工标注的有效替代。其中,基于深度神经网络的ipc类目与clc类目自动映射方法是当前研究的主流方向。

3、目前行业中都将类目自动映射转换为二分类问题,即判断给定的类目描述文本和另一分类法类目描述文本是否对应表达同一科学概念。然而,在实际应用中,给定一个ipc类目,要找到对应的clc类目,需要遍历整个clc分类体系,准确定位到其所映射的clc叶子类目。由于同一根节点下clc叶子类目文本描述差异很小,概念非常相似。因此,ipc类目与高关联的clc类目自动映射是其中一个重要的挑战,本技术能够解决这一问题。


技术实现思路

1、针对现有技术的不足,本发明的目的在于提供一种科技文献类目自动映射模型训练与预测方法,解决实际应用场景难以准确建立映射的问题。

2、本发明采用的技术方案如下:一种科技文献类目自动映射模型训练方法,基于ipc类目与高关联的clc类目自动映射模型训练,其步骤如下:

3、步骤s1,构造ipc类目与高关联clc类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由ipc类目描述文本、clc类目描述文本和ipc类目描述文本与clc类目描述文本是否互为映射的真实类别标签组成,ipc类目描述文本和clc类目描述文本均是类目层级文本之间用分号连接形成的一条句子;

4、步骤s2,将处理后的训练集内每个样本的ipc类目描述文本和clc类目描述文本分别输入预训练语言模型bert中,获取语义表示向量,分为ipc类目描述文本语义表示向量和clc类目描述文本语义表示向量;

5、步骤s3,使用点积注意力计算步骤s2中ipc类目描述文本语义表示向量和clc类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;

6、步骤s4,将步骤s2中语义表示向量和步骤s3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;

7、步骤s5,将步骤s4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;

8、步骤s6,根据步骤s5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤s1中训练集上ipc类目描述文本与clc类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化ipc类目与高关联clc类目自动映射模型的参数,以得到训练后的ipc类目与高关联clc类目自动映射模型。

9、进一步的,步骤s1中构造ipc类目与高关联clc类目数据集,具体为:

10、步骤s11,获取公开的ipc类目与clc类目完全映射的数据集,数据集中每个样本是由一个ipc类目描述文本和与ipc类目描述文本存在映射关系的clc类目描述文本组成,即只存在正样本;

11、步骤s12,步骤s11中数据集拆分为ipc类目描述文本与clc类目描述文本,通过回溯获取每个ipc类目的类目号和对应的一个或者多个clc类目的类目号关系字典;

12、步骤s13,对具有相同前缀的ipc类目号进行分组,获得分组字典;

13、步骤s14,遍历所有的ipc类目,对步骤s13的分组字典中对应的clc类目进行过滤,通过判断条件,确立与步骤s12中存在映射关系的ipc类目号高度相似的clc类目号;高度相似的clc类目号对应的类目描述文本与步骤s12中ipc类目描述文本不存在映射关系,即获得负样本;

14、步骤s15,组合负样本和公开的ipc类目与clc类目完全映射的数据集,构成ipc类目与高关联的clc类目数据集。

15、进一步的,步骤s2中处理后的训练集内每个样本的ipc类目描述文本和clc类目描述文本分别输入预训练语言模型bert中,获取语义表示向量,具体为:

16、给定训练集中一个样本 d=( s ipc, s clc, y),其中 d表示一个训练样本,  s ipc表示ipc类目描述文本, s clc表示clc类目描述文本,  y表示ipc类目与clc类目是否存在映射关系, y值为0或1;

17、将ipc类目描述文本 s ipc和clc类目描述文本 s clc使用bpe子词切分方法进行子词切分,分别得到包含 n个子词和 m个子词的子词序列:

18、;

19、;

20、其中,表示ipc类目描述文本切分后的第1个子词,表示ipc类目描述文本切分后的第2个子词,表示ipc类目描述文本切分后的第n个子词,表示clc类目描述文本切分后的第1个子词,表示clc类目描述文本切分后的第2个子词,表示clc类目描述文本切分后的第m个子词; n和 m分别指ipc类目描述文本和clc类目描述文本子词切分后包含的子词个数;

21、将类目描述文本切分后的子词序列依次输入预训练语言模型bert中,获得每个子词的语义表示向量,见公式(1)和公式(2):

22、(1);

23、(2);

24、其中, v ipc和 v clc分别表示ipc类目描述文本和clc类目描述文本的语义表示向量,表示ipc类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型bert获得的输出向量;表示clc类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型bert获得的输出向量;表示预训练语言模型bert,表示查询嵌入表得到对应的词向量,表示片段的嵌入向量,表示位置的嵌入向量,表示ipc类目描述文本切分后的第i个子词,表示clc类目描述文本切分后的第i个子词。

25、进一步的,步骤s3中使用点积注意力计算步骤s2中ipc类目描述文本语义表示向量和clc类目描述文本语义表示向量的注意力矩阵,以获得交互表示向量;见公式(3)、公式(4)和公式(5)所示;

26、(3);

27、(4);

28、(5);

29、其中, e表示注意力矩阵, t表示矩阵转置操作, softmax表示激活函数,表示融合clc类目语义信息的ipc类目交互表示向量,表示融合ipc类目语义信息的clc类目交互表示向量。

30、进一步的,步骤s4中将步骤s2中语义表示向量和步骤s3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;进行增强表示见公式(6)、公式(7)、公式(8)和公式(9)所示;

31、(6);

32、(7);

33、(8);

34、(9);

35、其中, m ipc和 m clc分别表示ipc类目描述文本和clc类目描述文本融合后的表示向量,符号是向量拼接操作,符号-为向量间的减法运算,为向量对应元素相乘,和分别表示ipc类目描述文本和clc类目描述文本增强表示向量, ffn(·)表示前馈神经网络, bi-lstm( ·)表示双向长短期记忆网络。

36、进一步的,步骤s5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别,见公式(10)、公式(11)、公式(12)和公式(13)所示;

37、(10);

38、(11);

39、(12);

40、(13);

41、其中,和分别表示ipc类目描述文本平均池化后的表示向量和最大池化后的表示向量,和分别表示clc类目描述文本平均池化后的表示向量和最大池化后的表示向量, bi-pooling表示平均池化和最大池化即双池化,符号 v表示所有池化后向量的拼接,描述ipc类目和clc类目之间的映射关系, p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量, classifier表示三层前馈神经网络组成的分类器。

42、进一步的,步骤s6中交叉熵损失见公式(14)所示;

43、(14);

44、其中, loss表示交叉熵损失, n表示训练集中样本的数量, y i表示训练集中第 i条训练样本的真实类别标签 ,p i表示科技文献类目自动映射模型在训练集中第 i条训练样本的真实类别标签 y i类别上的预测概率。

45、进一步的,本发明采用的另外一种技术方案:一种科技文献类目自动映射模型预测方法,应用于科技文献类目自动映射模型训练方法,包括:

46、步骤s7,对待映射的ipc类目和clc类目进行类目号与类目描述文本分离,分别抽取ipc类目描述文本和clc类目描述文本并进行规范化处理;

47、步骤s8,将步骤s7中规范化处理后的ipc类目描述文本和clc类目描述文本输入至步骤s6中训练后的ipc类目与高关联clc类目自动映射模型,获取是否存在映射关系的类别值。

48、进一步的,本发明采用的另外一种技术方案:一种科技文献类目自动映射模型的训练装置,包括:

49、训练集模块,构造ipc类目与高关联clc类目数据集作为训练集;训练集中每个样本由ipc类目描述文本、clc类目描述文本和ipc类目描述文本与clc类目描述文本是否互为映射的真实类别标签组成;

50、预训练语言模型bert,将训练集模块内每个样本的ipc类目描述文本和clc类目描述文本分别输入预训练语言模型bert中,获取语义表示向量;

51、交互表示模块,使用点积注意力计算预训练语言模型bert的语义表示向量的注意力矩阵,获得交互表示向量;

52、增强表示模块,语义表示向量和交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络获得增强表示向量;

53、类目映射类别预测模块,将增强表示模块的输出输入至池化层提取信息,再输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;

54、模型参数调整模块,基于在存在映射关系类别上的概率与不存在映射关系类别上的概率和训练集上ipc类目描述文本与clc类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化ipc类目与高关联clc类目自动映射模型的参数,以得到训练后的ipc类目与高关联clc类目自动映射模型。

55、进一步的,本发明采用的另外一种技术方案:一种科技文献类目自动映射模型的预测装置,应用于科技文献类目自动映射模型的训练装置,包括:

56、测试集数据预处理模块,对待映射的ipc类目和clc类目进行类目号与类目描述文本分离;

57、分别抽取ipc类目描述文本和clc类目描述文本并进行规范化处理,将分离后的待判断映射关系的ipc类目描述文本与clc类目描述文本分别输入至已训练的ipc类目与高关联的clc类目映射模型,获得映射类别标签值。

58、本发明的有益效果是:本发明将两部分类法类目自动映射模型方法分解为,构造ipc类目与高关联clc类目数据集作为训练集;由预训练语言模型bert对两部分类法类目描述文本进行初步表征,利用点积注意力对其进行相互表示,将相互表示与初步表征进行拼接输入融合增强表示,再对其进行关键信息的抽取操作,最后进行映射关系的分类,从而建立准确的映射关系。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1