一种基于图文多模态双曲嵌入的专利IPC分类方法及系统与流程

文档序号:37172015发布日期:2024-03-01 12:19阅读:20来源:国知局
一种基于图文多模态双曲嵌入的专利IPC分类方法及系统与流程

本发明涉及文本图形分类处理,具体涉及一种基于图文多模态双曲嵌入的专利ipc分类方法及系统。


背景技术:

1、专利文献申请时需要依据其技术内容进行国际专利分类划分。人工方式划分给专利审查员带来了巨大的工作量。一种基于sbert的中文专利ipc分类方法(公开号为cn115758244a的中国专利公开文本)采用具有孪生结构的sbert作为中文专利自动分类的框架,将专利文本和ipc分类表中的分类术语描述为两路数据输入sbert,通过bert实现对两路文本的向量化编码,然后由得到的两路向量相近程度来判断真实专利的类别,还能够给出多个ipc分类号。一种专利文本多标签分类方法(公开号为cn113849655b的中国专利公开文本),首先将ipc标签文本描述向量化来表示ipc标签向量,将训练集中的ipc标签共现关系矩阵作为标签之间的关联矩阵,再基于上述矩阵得到融合标签关联关系的ipc标签表示矩阵,最后将专利文本的不同角度的特征表示融合后得到文本特征矩阵与ipc标签矩阵相乘得到标签分数矩阵,通过激活层归一化得到各个标签的概率。一种基于知识图谱的专利ipc分类号推荐方法及装置(公开号为cn114357086a的中国专利文本)构建专利知识图谱,利用transe模型对图谱中的实体进行向量化表示,得到发明名称的向量化表示;利用发明名称的向量化表示计算查询专利与数据库中各专利之间的相似度,将于查询专利相似度最高的m件专利作为推荐的类似专利;将类似专利中出现次数数量高的n个ipc分类号作为推荐的ipc分类号。

2、人工分析专利进行ipc划分耗时长、效率低,给专利审查员带来了巨大的工作量。一种基于sbert的中文专利ipc分类方法(公开号为cn115758244a的中国专利公开文本)采用的是欧几里得或球面空间向量编码,未考虑ipc标签共现关系。一种专利文本多标签分类方法(公开号为cn113849655b的中国专利公开文本)对专利文本采用欧几里得或球面空间向量编码。一种基于知识图谱的专利ipc分类号推荐方法及装置(公开号为cn114357086a的中国专利文本)抽取实体利用transe模型向量化,也属于欧几里得或球面空间编码,没有利用附图及图文多模态信息,未考虑ipc标签共现关系。

3、面对每年数量巨大的专利申请量,需要采用新的技术方案,以提高ipc分类效率和准确率。


技术实现思路

1、鉴于此,本发明提供了一种基于图文多模态双曲嵌入的专利ipc分类方法及系统,以提高ipc分类效率和准确率。

2、为了实现上述目的,本发明提供如下技术方案:

3、本发明一方面提供了一种基于图文多模态双曲嵌入的专利ipc分类方法,包括专利图文多模态双曲嵌入的处理阶段及ipc多标签分类的处理阶段;

4、专利图文多模态双曲嵌入的处理阶段包括:

5、专利图文多模态双曲模型训练数据集构建,预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集;

6、建立专利图文多模态双曲模型:该模型包括基于残差网络resnet实现的图像编码器;基于转换器transformer实现的文本编码器;通过前馈神经网络实现的线性映射部件;通过模型训练学习到的两个模型参数的学习缩放参数 和,用于避免经指数映射后数值发生溢出;

7、专利图文多模态双曲模型训练,基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集;附图文本对分别通过附图编码器及文本编码器生成附图向量和文本向量;所述文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示和附图双曲嵌入表示;将所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示,以成对的形式输入预设的神经网络模型,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量;模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数;按照预定次数进行迭代,得到训练好的专利图文多模态双曲模型并保存;

8、应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;

9、所述ipc多标签分类的处理阶段包括如下步骤:

10、ipc多标签分类模型训练数据集构建,预处理ipc分类体系构建ipc信息字典,读取样本库专利文献中的ipc分类信息,结合ipc信息字典,获取到附图文本对的ipc分类标签;将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出得到附图文本对双曲嵌入表示;利用所述附图文本对双曲嵌入表示和所述ipc分类标签,构建ipc多标签分类模型训练数据集;

11、利用所述ipc多标签分类模型训练数据集进行ipc多标签分类模型训练:

12、选取支持多分类的机器学习模型,将所构建的ipc多标签分类模型训练数据集,输入多分类机器学习模型,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;迭代执行达到迭代次数阈值止,得到训练好的ipc多标签分类模型;

13、利用所述ipc多标签分类模型对待加工专利文献进行ipc多标签分类。

14、更适宜地,所述应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,具体包括:

15、对待加工专利文献,基于所述专利图文多模态双曲数据集构建方法进行处理,构建待加工专利文献附图文本对;

16、将待加工专利附图文本对输入专利图文多模态双曲模型;

17、模型输出待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,所述双曲嵌入表示指双曲空间的向量。

18、更适宜地,所述ipc多标签分类模型训练数据集构建步骤,具体包括:

19、步骤s31,在小组层级预处理ipc分类体系构建ipc小组信息字典;

20、步骤s32,读取样本库专利文献中的ipc分类信息,结合ipc小组信息字典,获取到附图文本对的ipc分类标签。

21、步骤s33:将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示,拼接后得到附图文本对双曲嵌入表示;

22、步骤s31,利用步骤s33得到的附图文本对双曲嵌入表示和步骤s32得到的ipc分类标签,构建ipc多标签分类模型训练数据集。

23、更适宜地,所述利用ipc多标签分类模型训练数据集进行ipc多标签分类模型训练,具体包括:

24、步骤s41,选取支持多分类的机器学习模型,包括cnn+softmax,交叉熵损失;

25、步骤s42,将依据所述ipc多标签分类模型训练数据集构建方构建的ipc多标签分类模型训练数据集,输入多分类机器学习模型,进行训练。

26、步骤s43,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数。

27、步骤s44,迭代执行步骤s42和步骤s43,直到达到迭代次数阈值止;

28、步骤s45,返回训练好的ipc多标签分类模型。

29、优选地,迭代次数阈值为大于32的整数。

30、更适宜地,所述利用ipc多标签分类模型对待加工专利文献进行ipc多标签分类,包括:

31、应用专利图文多模态双曲模型,得到待加工专利文献的所有附图文本对的每一张附图双曲嵌入表示和每一个文本双曲嵌入表示,拼接得到每一附图文本对的双曲嵌入表示;将附图文本对的双曲嵌入表示输入ipc多标签分类模型,得到前n个ipc多标签分类结果;

32、汇总并依据ipc标签频度,如果频度相同则依据概率值,对待加工专利文献所有附图文本对的ipc标签降序排序,获取前n个ipc标签及其频度及概率值。

33、优选地,所述通过前馈神经网络实现的线性映射部件,采用两层前馈神经网络实现。

34、本发明另一方面,提供了一种基于图文多模态双曲嵌入的专利ipc分类系统,包括专利图文多模态双曲模型训练和应用模块和ipc多标签分类模型训练和应用模块;

35、专利图文多模态双曲模型训练和应用模块执行如下处理:专利图文多模态双曲模型训练数据集构建、建立专利图文多模态双曲模型、专利图文多模态双曲模型训练和专利图文多模态双曲模型应用;

36、所述专利图文多模态双曲模型训练数据集构建,预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集;

37、建立专利图文多模态双曲模型,该模型包括基于残差网络resnet实现的图像编码器;基于转换器transformer实现的文本编码器;通过前馈神经网络实现的线性映射部件;通过模型训练学习到的两个模型参数的学习缩放参数 和,用于避免经指数映射后数值发生溢出;

38、专利图文多模态双曲模型训练,基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集;附图文本对分别通过附图编码器及文本编码器生成附图向量和文本向量;所述文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示和附图双曲嵌入表示;将所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示,以成对的形式输入预设的神经网络模型,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量;模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数;按照预定次数进行迭代,得到训练好的专利图文多模态双曲模型并保存;

39、应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;

40、所述ipc多标签分类模型训练和应用模块执行如下处理:

41、ipc多标签分类模型训练数据集构建,预处理ipc分类体系构建ipc信息字典,读取样本库专利文献中的ipc分类信息,结合ipc信息字典,获取到附图文本对的ipc分类标签;将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出得到附图文本对双曲嵌入表示;利用所述附图文本对双曲嵌入表示和所述ipc分类标签,构建ipc多标签分类模型训练数据集;

42、利用所述ipc多标签分类模型训练数据集进行ipc多标签分类模型训练:

43、选取支持多分类的机器学习模型,将所构建的ipc多标签分类模型训练数据集,输入多分类机器学习模型,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;迭代执行达到迭代次数阈值止,得到训练好的ipc多标签分类模型;

44、利用所述ipc多标签分类模型对待加工专利文献进行ipc多标签分类。

45、综上所述,本发明使用了双曲嵌入具有自然层次结构特性,与ipc树状层级分类任务具有层级特点适配,在树状分类任务上有更好的性能。专利图文多模态不仅表征了文本的语义特征,还挖掘出附图的语义特征,综合利用附图文本的整体语义特征对专利进行分类。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1