一种期刊Word文档智能标引的方法与流程

文档序号:36995940发布日期:2024-02-09 12:37阅读:18来源:国知局
一种期刊Word文档智能标引的方法与流程

本技术涉及期刊word文档标引及自然语言处理,特别是涉及一种期刊word文档智能标引的方法。


背景技术:

1、在期刊word文档加工过程中,word自动标引结果主要应用于自动标引机器人、格式精灵、cnki智能排版等自动化工具。期刊word文档智能标引对于文献加工起到了关键性的作用,具体来说,智能标引可以为智能排版提供更加准确和精细的排版碎片化信息,这有助于智能排版工具进行更优的版面设计和布局,从而提高出版物的质量和用户体验。

2、相关技术中,期刊word文档标引方法,一般可分为两种:第一,通过人工标注,该方法人工参与度较高,耗时长成本高;第二,通过解析word文档,根据文档版式和关键词信息进行标注,该方法虽然准确率较高,但对于不同版式的文档普适性欠佳。因此,亟需一种适用于不同格式文档的期刊word文档智能标引方法。


技术实现思路

1、有鉴于此,本技术提供了一种期刊word文档智能标引方法,主要目的在于解决目前人工标注耗时长成本高,根据文档版式和关键词信息进行标注对于不同版式的文档普适性欠佳的问题。

2、依据本技术第一方面,提供了一种期刊word文档智能标引方法,该方法包括:

3、获取待标引文档,所述待标引文档为期刊word文档;

4、读取所述待标引文档,对所述待标引文档进行预处理,所述预处理包括图形表格公式预处理、文本内容预处理以及标记图形表格公式;

5、对预处理后的待标引文档进行特征提取,得到所述待标引文档中每个待标引段落的特征向量,并将提取出的特征向量存储至xml文件,形成特征数据集;

6、将所述特征数据集输入至智能标引标签分类器进行标签预测,将所述智能标引标签分类器输出的标签预测结果写入xml文件中,形成标引文档;

7、按照所述标引文档,为所述待标引文档添加标引,得到目标文档,以及对所述目标文档进行规范化后处理;

8、输出处理后的目标文档,所述目标文档中的标引以批注和书签形式展示。

9、可选地,所述图形表格公式预处理,具体包括:

10、在段落范围内进行多图形识别匹配,将识别出的多幅图形组合为一幅图形并定位嵌入专属位置;

11、在检测到环绕表格时,将所述环绕表格定位嵌入专属位置;

12、在检测到表格内存在图元素时,从所述表格中提取出所述图元素后删除所述表格,所述图元素包括但不限于图形元素、图题元素和图注元素;

13、在检测到嵌套表格的目标表格时,提取所述目标表格的表格内容;

14、在检测到页脚存在表格时提取所述表格的表格内容;

15、在检测到表格首行和第二行为表题或检测到表格末行为表注时,提取所述表题和所述表注;

16、在检测到office math公式在表格中时,提取所述公式;

17、在检测到表格为两列多行且表格内容只有图形和office math及公式序号时从所述表格中提取所述表格内容。

18、可选地,所述文本内容预处理,包括:

19、在检测到文档正文样式设置有上标样式时,拆分所述上标样式及正文样式;

20、在检测到所述待标引段落中存在多余空格时,删除多余空格;

21、在检测到英文字符中间有断行设定时,清除所述断行设定;

22、在检测到页脚存在文本框时,提取所述文本框的内容;

23、在检测到批注框时,删除批注内容;

24、在检测到软回车时,将所述软回车设置为硬回车;

25、在检测到包含多段的待标引段落时,拆分所述待标引段落;

26、在检测到段落起始存在多余空格时,删除多余空格。

27、可选地,所述标记图形表格公式,包括:

28、在检测到图形后,在图形前后多段范围识别匹配图题图注信息;

29、在检测到表格后,在表格前后多段范围识别匹配表题表注信息;

30、在检测到公式后,在公式的独立段落内识别mathtype公式和/或office math公式和/或文字公式。

31、可选地,所述对预处理后的待标引文档进行特征提取,得到所述待标引文档中每个待标引段落的特征向量,具体包括:

32、提取所述待标引文档中每个所述待标引段落的15维特征向量,所述15维特征向量包括:段落所在位置、段落长度、与上段字数比较结果、语种、字体、字号、对齐方式、行间距、大纲级别、加粗情况、倾斜情况、上下文特征、是否是正文字体、是否是正文字号、部分文字内容。

33、可选地,所述将所述特征数据集输入智能标引标签分类器进行标签预测之前,所述方法还包括:

34、选择已标引好的训练文档,将类别标签对照列表中的标引标签和所述训练文档中每个段落的15维特征向量建立一一对应关系,存入数据库,构建数据集;

35、将所述数据集拆分为训练集、验证集和测试集,并选择基于知识增强的持续学习语义理解框架的文本分类器进行模型训练;

36、获取测试集,采用所述对训练好的文本分类器进行测试,确定整体准确率、单篇准确率、单项准确率和单项召回率,基于所述整体准确率、所述单篇准确率、所述单项准确率和所述单项召回率评估所述文本分类器;

37、在评估结果指示所述文本分类器满足使用条件时,得到所述智能标引标签分类器;

38、其中,所述整体准确率的计算公式为:

39、precision1=m1/n1×100%

40、其中,m1是所述测试集中所有段落预测标签结果正确的总数,n1是所述测试集所有段落总数;

41、所述单篇准确率的计算公式为:

42、precision2=m2/n2×100%

43、其中,m2是一篇期刊word文档中段落预测标签结果正确的数量,n2是一篇期刊word文档的段落总数;

44、所述单项准确率和单项召回率的计算公式如下:

45、precision3=m3/n3×100%

46、recall3=m3/h3×100%

47、其中,m3是所述测试集中段落预测为同一标签结果正确的数量,n3是所述测试集中段落预测是同一标签结果的数量,h3是所述测试集中段落原本标签为同一标签的数量。

48、可选地,所述将所述特征数据集输入智能标引标签分类器进行标签预测,具体包括:

49、所述智能标引标签分类器根据所述特征数据集,对所述待标引文档中的每个待标引段落进行标签预测,所述标签预测结果包括38类标引标签;

50、所述38类标引标签包括:doi、标识元数据、参考文献、参考文献内容、段落标题、栏目、英文表题、英文表注、英文关键词、英文作者单位、英文基金项目、英文标题、英文收稿日期、英文图题、英文图注、英文引用格式、英文摘要、英文作者、英文作者简介、英文通信作者、英文致谢、正文段落、中文表题、中文表注、中文关键词、中文作者单位、中文基金项目、中文标题、中文收稿日期、中文图题、中文图注、中文引用格式、中文摘要、中文作者、中文作者简介、中文通信作者、中文致谢、脚注。

51、可选地,所述对所述待标引文档进行规范化后处理,得到目标文档,包括:

52、所述规范化后处理,包括多栏转单栏;匹配xml信息设定书签;图形表格公式标记;各级标题设定;正文与标题同段情况时拆分正文与标题分别标记;标识元数据拆分为文献标识符、中图分类号、文章编号;中文参考文献与英文参考文献对照标记;参考文献链接添加;word中添加标引结果及标引项范围批注和书签。

53、借由上述技术方案,本技术提供的一种期刊word文档智能标引的方法,本技术将期刊word文档智能标引问题转化为文本分类问题,用基于知识增强的持续学习语义理解框架的文本分类思想设计标引标签分类器,有效提高了期刊word文档智能标引结果准确率和期刊word文档标引环节的处理速度,同时也降低了期刊word文档标引环节的人工成本。

54、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1