文档结构树的生成方法以及装置与流程

文档序号:37295510发布日期:2024-03-13 20:43阅读:8来源:国知局
文档结构树的生成方法以及装置与流程

本申请涉及文档结构,更为具体地,涉及一种文档结构树的生成方法以及装置。


背景技术:

1、文档结构树可以用于指示文档的目录结构,用户可通过文档结构树认知文档的整体结构。用户还可以通过文档结构树从长文档中筛选出用户所需要的文本。

2、然而,现有的文档结构树的生成方法会受到诸多因素的干扰,譬如,文档的版式、文档本身的特性,如字号、字体、行间距等,导致其泛化性较差,且生成的文档结构树的准确性不高。尤其对于层次较深的文档而言,现有的文档结构树的生成方法所生成的文档结构树很容易发生错误。


技术实现思路

1、本申请提供一种文档结构树的生成方法以及装置,能够为绝大多数的文档生成相应的文档结构树,且不受文档的版式、字符的属性信息等因素的限制。

2、第一方面,提供了一种文档结构树的生成方法,包括:获取文本,该文本包括至少两个文本单元,至少两个文本单元包括第一文本单元与第二文本单元,第一文本单元与第二文本单元相邻;获取至少两个语义信息,至少两个语义信息包括第一语义信息与第二语义信息,第一语义信息与第二语义信息用于确定所述第一文本单元与所述第二文本单元之间的层级关系,第一文本单元对应于第一语义信息,第二文本单元对应于第二语义信息;将至少两个语义信息输入到神经网络模型,推理得到文本的第一文档结构树。

3、通过基于文档的语义信息的推理来生成文档的文档结构树,如此,就能够为绝大多数的文档生成相应的文档结构树,且不受文档的版式、字符的属性信息等因素的限制。

4、结合第一方面,在第一方面的某些实现方式中,文本单元包括以下至少一项:语句,或者,段落。

5、具体来说,当文本单元是语句时,本申请实施例的文档结构树的生成装置可以获取相邻语句的语义信息,并基于该语义信息确定相邻语句之间的层级关系,并基于该层级关系来生成文档的文档结构树。当文本单元是段落时,本申请实施例的文档结构树的生成装置可以获取相邻段落的语义信息,并基于该语义信息确定相邻段落之间的层级关系,并基于该层级关系来生成文档的文档结构树。如此,能够为绝大多数的文档生成相应的文档结构树,且不受文档的版式、字符的属性信息等因素的限制。

6、结合第一方面,在第一方面的某些实现方式中,该方法还包括:获取第一数据,该第一数据是用户对第一文档结构树进行校验而确定的数据;根据该第一数据更新神经网络模型。

7、通过基于用户对所生成的文档结构树的校验数据来更新神经网络模型,本申请实施例可以支持通过逐次迭代的方式来优化生成的文档结构树,以及更为准确地指示文档的结构,且后续生成的文档结构树更能够符合用户的认知。

8、结合第一方面,在第一方面的某些实现方式中,该方法还包括:根据文档结构模板对第一文档结构树进行更新,得到该文本的第二文档结构树。

9、如此,可以使得所生成的第二文档结构树更准确,且更符合用户的要求。

10、结合第一方面,在第一方面的某些实现方式中,该方法还包括:获取第二数据,该第二数据是用户对第二文档结构树进行校验而确定的数据;根据该第二数据更新该神经网络模型。

11、通过基于用户对所生成的文档结构树的校验数据来更新神经网络模型,本申请实施例可以支持通过逐次迭代的方式来优化生成的文档结构树,以及更为准确地指示文档的结构,且后续生成的文档结构树更能够符合用户的认知。

12、结合第一方面,在第一方面的某些实现方式中,该方法还包括:将校验后的第一文档结构树或者第二文档结构树存储至文档模板库。

13、如此,可以便于后续生成更符合用户认知的文档结构树,能够生成更准确的文档结构树。

14、第二方面,提供了一种文档结构树的生成装置,包括:获取模块,用于获取文本,该文本包括至少两个文本单元,至少两个文本单元包括第一文本单元与第二文本单元,第一文本单元与第二文本单元相邻;获取模块,还用于获取至少两个语义信息,至少两个语义信息包括第一语义信息与第二语义信息,第一语义信息与第二语义信息用于确定第一文本单元与第二文本单元之间的层级关系,第一文本单元对应于第一语义信息,第二文本单元对应于第二语义信息;处理模块,用于将至少两个语义信息输入到神经网络模型,推理得到该文本的第一文档结构树。

15、结合第二方面,在第二方面的某些实现方式中,文本单元包括以下至少一项:语句,或者,段落。

16、结合第二方面,在第二方面的某些实现方式中,该装置还包括校验模块,该校验模块用于获取第一数据,该第一数据是用户对第一文档结构树进行校验而确定的数据;该处理模块,还用于根据第一数据更新神经网络模型。

17、结合第二方面,在第二方面的某些实现方式中,处理模块,还用于根据文档结构模板对第一文档结构树进行更新,得到该文本的第二文档结构树。

18、结合第二方面,在第二方面的某些实现方式中,该装置还包括校验模块,该校验模块用于获取第二数据,该第二数据是用户对第二文档结构树进行校验而确定的数据;该处理模块,还用于根据第二数据更新神经网络模型。

19、结合第二方面,在第二方面的某些实现方式中,该装置还包括:存储模块,用于将校验后的第一文档结构树或者第二文档结构树存储至文档模板库。

20、第三方面,提供了一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得计算设备集群执行如第一方面以及第一方面的任一种可能实现方式中所述的方法。

21、第四方面,提供了一种计算机可读存储介质,存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面以及第一方面的任一种可能实现方式中任一项所述的数据处理方法。

22、第五方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器;所述存储器,用于存储计算机程序指令;所述处理器执行调用所述存储器中的计算机程序指令执行如第一方面以及第一方面的任一种可能实现方式中所述的方法。



技术特征:

1.一种文档结构树的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求2或4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至5中任一项所述的方法,其特征在于,所述文本单元包括以下至少一项:

7.一种文档结构树的生成装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:

9.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于根据文档结构模板对所述第一文档结构树进行更新,得到所述文本的第二文档结构树。

10.根据权利要求9所述的装置,其特征在于,所述装置还包括:

11.根据权利要求8或10所述的装置,其特征在于,所述装置还包括:

12.根据权利要求7至11中任一项所述的装置,其特征在于,所述文本单元包括以下至少一项:

13.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;

14.一种计算机可读存储介质,存储有指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至6中任一项所述的数据处理方法。

15.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器;


技术总结
本申请提供了一种文档结构树的生成方法以及装置,该方法包括:获取文本#A,该文本#A包括至少两个文本单元,至少两个文本单元包括第一文本单元与第二文本单元,第一文本单元与第二文本单元相邻;获取至少两个语义信息,至少两个语义信息包括第一语义信息与第二语义信息,第一语义信息与第二语义信息用于确定第一文本单元与第二文本单元之间的层级关系,第一文本单元对应于第一语义信息,第二文本单元对应于第二语义信息;将至少两个语义信息输入到神经网络模型,推理得到文本#A的第一文档结构树。通过上述方法,本申请实施例可以实现为绝大多数的文档生成相应的文档结构树,且不受文档的版式、字符的属性信息等因素的限制。

技术研发人员:李泽昌,顾迎捷,段新宇,王喆锋,怀宝兴
受保护的技术使用者:华为云计算技术有限公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1