语义版式文档生成方法和装置

文档序号:34158010发布日期:2023-05-14 18:06阅读:41来源:国知局
语义版式文档生成方法和装置

本公开的实施例涉及计算机,具体涉及语义版式文档生成方法和装置。基本术语(1)流式文档为符合流式文档格式规范(ooxml,odf,uof等)的文档。(2)语义流式文档:带有语义文件的流式文档,是在原有流式文档中对文档添加语义后,以文件方式存储,并定义了语义记录格式的带有语义标签的语义文件。即,在流式文档格式中增加了语义信息,并一同打包记录在流式文档中形成的语义流式文档。(3)带有语义信息的文档:在流式文档中添加了对应语义标记信息的文档。(4)文字处理软件:用于创建、编辑、浏览流式文档的软件(例如,办公软件)。(5)流式文档格式:目前主要有三种流式文档格式标准,分别为:ooxml(officeopen xml)格式、odf(open fixed-layout document)格式和uof(uniform officedocument format)格式。(6)版式文档格式:目前主要的版式文档格式包括:pdf格式,ofd格式。(7)语义版式文档:在完成流式文档到版式文档格式转换后,将目标版式文档语义元数据记录的内容插入到版式文档的元数据流中,存储所生成语义版式文档。


背景技术:

1、流式文档中含有丰富的语义信息,为使流式文档进一步发挥文档内容中数据的价值,增强流式文档的机器可读性,为流式文档添加语义元数据,将使其方便用于文档的高效检索、信息提取和机器理解等智能化处理。在文档从流式格式生成到版式格式存档的整个流程中,使文档的语义信息能够得到更充分的利用成为当前迫切需要解决的问题。

2、该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了语义版式文档生成方法和装置,来解决以上背景技术部分提到的技术问题。

3、第一方面,本公开的一些实施例提供了一种语义版式文档生成方法,包括:将以语义标注的形式在目标流式文档中所添加的文档语义元数据信息存储为语义标注记录;将上述目标流式文档和上述语义标注记录进行对应存储,得到语义流式文档;响应于检测到针对上述语义流式文档的第一文档格式转换操作,将上述语义流式文档中的、上述语义标注记录的语义标注信息集的语义内容写入目标版式语义元数据文件,其中,上述目标版式语义元数据文件存为预先定义的版式语义标注记录格式;将上述语义流式文档所包括的目标流式文档转换为目标版式文档;将上述目标版式语义元数据文件和上述目标版式文档进行融合,以生成目标版式的语义文档,作为语义版式文档。

4、第二方面,本公开的一些实施例提供了一种语义版式文档生成装置,包括:第一存储单元,被配置成将以语义标注的形式在目标流式文档中所添加的文档语义元数据信息存储为语义标注记录;第二存储单元,被配置成将上述目标流式文档和上述语义标注记录进行对应存储,得到语义流式文档;写入单元,被配置成响应于检测到针对上述语义流式文档的第一文档格式转换操作,将上述语义流式文档中的、上述语义标注记录的语义标注信息集的语义内容写入目标版式语义元数据文件,其中,上述目标版式语义元数据文件存为预先定义的版式语义标注记录格式;文档转换单元,被配置成将上述语义流式文档所包括的目标流式文档转换为目标版式文档;融合单元,被配置成将上述目标版式语义元数据文件和上述目标版式文档进行融合,以生成目标版式的语义文档,作为语义版式文档。

5、本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的语义版式文档生成方法以添加语义标注方式生成语义流式文档,在文档的版式流式之间进行格式转换时,在流式的语义标注记录和版式文档语义元数据记录之间进行元数据的转换存储,使得文档在版式和流式之间切换时,随时可以利用文档的语义元数据信息,并大大提高文档的再利用能力。同样地,其研制的工具具有重要的使用价值和作用。



技术特征:

1.一种语义版式文档生成方法,包括:

2.根据权利要求1所述的方法,其中,在所述将所述目标流式文档和所述语义标注记录进行对应存储,得到语义流式文档之后,所述方法还包括:

3.根据权利要求1所述的方法,其中,所述文档语义元数据信息通过以下步骤生成:

4.根据权利要求1所述的方法,其中,所述将以语义标注的形式在目标流式文档中所添加的文档语义元数据信息存储为语义标注记录,包括:

5.根据权利要求4所述的方法,其中,所述将所述目标流式文档和所述语义标注记录进行对应存储,得到语义流式文档,包括:

6.根据权利要求2所述的方法,其中,所述根据所述编辑后的语义文档,对所述语义流式文档进行文档更新,得到更新后语义流式文档,包括:

7.根据权利要求1所述的方法,其中,语义标注信息的语义内容包括:词汇表、词、与原文内容之间的对应关系和标注内容;以及

8.根据权利要求1所述的方法,其中,所述将所述目标版式语义元数据文件和所述目标版式文档进行融合,以生成目标版式的语义文档,作为语义版式文档,包括:

9.根据权利要求1所述的方法,其中,所述方法还包括:

10.一种语义版式文档生成装置,包括:


技术总结
本公开的实施例公开了语义版式文档生成方法和装置。该方法的一具体实施方式包括:将以语义标注的形式在目标流式文档中所添加的文档语义元数据信息存储为语义标注记录;将目标流式文档和语义标注记录进行对应存储,得到语义流式文档;响应于检测到针对语义流式文档的第一文档格式转换操作,将语义内容写入目标版式语义元数据文件,其中,目标版式语义元数据文件存为预先定义的版式语义标注记录格式;将语义流式文档所包括的目标流式文档转换为目标版式文档;将目标版式语义元数据文件和目标版式文档进行融合,以生成目标版式的语义文档,作为语义版式文档。该实施方式可以准确、便捷地生成语义版式文档。

技术研发人员:田英爱,李宁,王詠萱
受保护的技术使用者:北京信息科技大学
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1