一种基于多模态的自动化论文图表标题生成方法

文档序号：37187841发布日期：2024-03-01 12:53阅读：18来源：国知局

本发明属于计算机，尤其涉及一种基于多模态的自动化论文图表标题生成方法。

背景技术：

1、在学术文献中，有效的图表标题对于读者理解复杂的图表，如条形图、折线图或饼图，具有至关重要的作用。这些图表标题不仅仅描述图像本身，通常还包含来自文档全文的必要背景信息。但是，在已经发表的科研论文中，常常存在质量低劣的图表标题，这些标题无法为读者提供足够的帮助来理解图表的内容。自动生成科研论文图表标题的技术可以为论文作者提供高质量的起始标题，从而为其提供改进的空间。目前已有的方法通常可以归纳为以下两种主要思路：

2、第一种思路将科研论文图表标题生成视为一种从视觉信息到语言信息的转换任务，即基于图像生成论文图表标题。例如，一些方法采用端到端的方式，通过结合卷积神经网络（cnn）和循环神经网络（rnn）结构，从图像中提取特征表示并将其转化为图表标题文本。另一些方法采用了稍微不同的方式，首先理解图像的内容，提取其中的关键信息，然后根据预定义的模板生成图表标题。尽管这些方法在合成图表标题的整体逻辑结构方面取得了一定的成功，但它们通常在生成现实世界的图表标题时面临挑战。这是因为它们未充分考虑与论文图表相关的段落文本信息，而仅关注于论文图表的视觉信息，从而无法生成图表标题的细节信息。

3、第二种思路将科研论文图表标题生成视为一种从语言信息到语言信息的转换任务，即基于总结提及图表的段落来生成图表标题。例如，有些方法将科研论文图表标题生成视为文本摘要的任务，利用预训练的t5模型来总结提及图表的段落中的文本，从而生成科研论文图表标题。然而，尽管这些方法在生成细粒度的信息方面取得了一定的成功，它们通常没有考虑到论文图表的视觉信息，因此生成的科研论文图表标题在整体逻辑结构方面存在一定的不足，因此难以在实际应用中表现出色。

4、因此，如何能够同时有效地利用科研论文图表的视觉信息和提及图表的段落语言信息，以生成更高质量的科研论文图表标题，以满足实际应用需求，是一个亟待解决的问题。

技术实现思路

1、因此，为解决以上问题，本发明提出了一种多模态的自动化论文图表标题生成方法。该方法同时综合利用科研论文图表的视觉模态和提及图表的段落语言信息的文本模态，旨在生成具备较为完整的整体逻辑结构和细致的细节信息的科研论文图表标题。

2、本发明提出一种基于多模态的自动化论文图表标题生成方法，所述方法包括以下步骤：

3、步骤1.获取输入，在获取输入部分，将论文图表转化为本文描述，并将该文本描述和该论文图表对应的段落、论文中明确提到该论文图表的句子三者拼接起来，作为模型的输入部分；

4、步骤2.获取标签，在获取标签部分，将论文图表的真实标题作为模型的标签部分；

5、步骤3.模型训练，在模型训练部分，作为总结任务来进行训练。

6、进一步，步骤1的具体实现方法为：

7、步骤1.1.使用blingfire将论文的纯文本分割成句子，然后使用正则表达式来识别提到论文图表的句子；

8、步骤1.2.采用grobid将论文的pdf文件转换为结构化的xml文档，以从每篇论文的段落中提取纯文本，从中提取与论文图表对应的段落；

9、步骤1.3. 将论文图表使用blipv2模型转化为文本描述；

10、步骤1.4 将论文图表的文本描述与该论文图表对应的段落与论文中明确提到该论文图表的句子三者拼接起来，作为模型的输入。

11、进一步，在该方法的模型中，在每个时间步产生一个词，标记为，其中从1到，是生成序列的总长度；该方法的目标是找到具有最高条件概率的生成输出序列，即：

12、，

13、其中，是输入。

14、进一步，该方法中采用波束采样策略的生产输出序列，具体步骤如下：

15、步骤3.1. 初始化：在初始时间步时，创建一个包含个候选序列的候选列表，每个候选序列以起始符号开始；

16、步骤3.2. 生成候选序列：对于每个时间步，执行以下步骤：

17、a. 对于每个候选序列，计算生成下一个词的条件概率分布：

18、，

19、这里的是温度参数，用于控制分数的分布，通常为一个正数；

20、b. 对于已生成的词进行重复惩罚，将分数乘以，其中是重复惩罚参数，其中，表示已经生成的相同词的数量个相乘；

21、c. 对于每个候选序列，计算生成下一个词的累积概率得分；

22、，

23、这里的是指当前候选序列的累积概得分，其中；

24、d. 选择所有候选序列中累积概率得分最高的前个候选序列，将它们作为下一步的候选；

25、步骤3.3. 终止条件：重复步骤2，直到生成序列长度达到最大长度或者所有候选序列都生成了终止符号；最终，选择具有最高分数的候选序列作为最终的生成结果。

26、进一步，还包括，输出序列长度限制步骤，具体为：为了确保生成的输出序列的长度在最小和最大长度之间，在每个时间步骤执行以下操作：如果生成的输出序列的长度小于最小长度，则强制生成下一个词，以避免序列太短；如果生成序列的长度达到最大长度，则终止生成。

27、本发明的有益效果：

28、1. 协助研究人员自动生成高质量的科研论文图表标题，从两方面产生益处。首先，高质量的图表标题有助于更有效地向读者传递复杂丰富的信息。其次，该方法可以显著减轻论文作者的工作负担。自动化科研论文图表标题生成能够提供出色的初始标题，为进一步改进提供了有力支持。

29、2. 所提出的技术有望增加盲人或视觉受损读者对科学图表和图形的可访问性。尽管现有技术已经开发出一些助盲人导航图形内容的技术，例如数据可视化图表、印刷地图、3d化学示意图以及社交媒体上的图像等，但以前的研究鲜有关注科学图表。专门为科学图表设计的图像题注模型有望改善盲人对科学文章的理解，即使原始图表标题缺乏帮助。

技术特征：

1.一种基于多模态的自动化论文图表标题生成方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1的具体实现方法为：

3.根据权利要求2所述的方法，其特征在于，在该方法的模型中，在每个时间步产生一个词，标记为，其中从1到，是生成序列的总长度；该方法的目标是找到具有最高条件概率的生成输出序列，即：

4.根据权利要求3所述的方法，其特征在于，该方法中采用波束采样策略的生成输出序列，具体步骤如下：

5.根据权利要求4所述的方法，其特征在于，还包括，输出序列长度限制步骤，具体为：为了确保生成的输出序列的长度在最小和最大长度之间，在每个时间步骤执行以下操作：如果生成的输出序列的长度小于最小长度，则强制生成下一个词，以避免序列太短；如果生成序列的长度达到最大长度，则终止生成。

技术总结
本发明提出了一种基于多模态的自动化论文图表标题生成方法，本发明属于计算机技术领域，用于自动生成论文图表的信息丰富且高质量的标题，包括，步骤1.获取输入，在获取输入部分，将论文图表转化为本文描述，并将该文本描述和该论文图表对应的段落、论文中明确提到论文图表的句子三者拼接起来，作为模型的输入部分；步骤2.获取标签，在获取标签部分，将论文图表的真实标题作为模型的标签部分；步骤3.模型训练，在模型训练部分，作为总结任务来进行训练。本发明优于传统的基于视觉的或基于文本的单模态方法。

技术研发人员：凌强,齐晓滑,於俊,方毅
受保护的技术使用者：中国科学技术大学
技术研发日：
技术公布日：2024/2/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：凌强,齐晓滑,於俊,方毅
技术所有人：中国科学技术大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。