本发明属于数据处理,具体涉及一种文档标注方法、装置、存储介质和电子设备。
背景技术:
1、在信息处理和自然语言处理中,很重要的一点是要标注数据。目前的所采用的标注大都限于纯文本的标注,例如先要将文本处理成txt格式的文件,划分好段落或者句子。这种纯文本的标注方式,能够得到的标注信息有限,无法满足对相关识别模型的进一步的改进的训练需求。
技术实现思路
1、为了解决现有技术存在的能够得到的标注内容有限的问题,本发明提供了文档标注方法、装置、存储介质和电子设备,其具有能够对文档结构进行标注等特点
2、根据本发明具体实施方式提供的一种文档标注方法,包括:
3、将待标注文档转换为携带有文档结构信息的目标文档,所述目标文档中包括有:文档标签,其中每个文档标签均携带有结构标题;
4、从所述目标文档中获得所述待标注文档的层级结构;
5、显示所述层级结构的标题标注界面,所述标题标注界面中显示有所述待标注文档中的至少部分结构标题;
6、响应于用户对所述标题标注界面中目标结构标题的标注操作,将目标结构标题和用户输入的标注内容对应保存。
7、进一步地,所述标题标注界面中至少包括有:第一子区域和第二子区域;
8、所述第一子区域显示有由所述结构标题构成的所述待标注文档的层级结构;
9、所述第二子区域显示有内容输入框和标题展示框,所述内容输入框用于输入所述标注内容,所述标题展示框用于展示从所述第一子区域内选择的所述目标结构标题。
10、进一步地,所述标题标注界面还包括:第三子区域,所述第三子区域显示有检索框和检索结果框;
11、所述响应于用户对所述标题标注界面中目标结构标题的标注操作,将目标结构标题和用户输入的标注内容对应保存,包括:
12、响应于用户对输入所述检索框中的关键字的检索操作,在所述检索结果框中显示包含所述关键字的结构标题;
13、响应于用户对包含所述关键字的结构标题的选中操作,在所述标题展示框中显示包含所述关键字的结构标题;
14、将用户在所述内容输入框中输入的标注内容和包含所述关键字的结构标题相对应保存。
15、进一步地,所述结构标题包括:章节标题和内容标题,所述内容标题为层级最低的章节下的文档内容的标题;
16、将所述内容标题和所述内容标题所表征的相应文档内容进行关联,在所述标注操作的目标结构标题为内容标题时,在所述标题标注界面中显示所述相应文档内容。
17、进一步地,所述从所述目标文档中获得所述待标注文档的层级结构,包括:
18、对所述文档标签中的目标标签进行识别,获取所述目标标签的标签类型和标签内容;
19、基于所述标签类型和所述标签内容分别确定所述章节标题、层级关系和所述内容标题;在所述标签类型为h标签时,基于所述h标签的标签内容确定所述章节标题,基于所述h标签的标签内容中的层级标识确定所述层级关系;在所述标签类型为从属于所述h标签的其他标签时,基于所述目标标签的标签内容确定所述内容标题;
20、基于所述层级关系确定所述章节标题和所述内容标题的层级结构。
21、进一步地,所述显示所述层级结构的标题标注界面,所述标题标注界面中显示有所述待标注文档中的至少部分结构标题,包括:
22、基于所述层级关系显示所述章节标题的树形结构,其中层级相同的章节标题并列展示在同一分层中,在最底层的分层中,对从属于所述章节标题的内容标题进行并列展示;
23、响应于对目标章节标题的展示请求,对从属于所述目标章节标题的子章节标题或内容标题进行展示。
24、进一步地,所述响应于用户对所述标题标注界面中目标结构标题的标注操作,将目标结构标题和用户输入的标注内容对应保存,包括:
25、基于关系型数据库存储对所述标注内容进行存储,其中将所述结构标题存储至所述关系型数据库中的第一表格,将所述结构标题间的层级关系存储至所述关系型数据库中的第二表格,将所述标注内容存储至所述关系型数据库中的第三表格;
26、基于所述结构标题和所述层级关系间的关联关系将所述第一表格的主键设置为所述第二表格的外键,以将所述第一表格和所述第二表格关联;
27、基于所述结构标题和所述标注内容的关联关系将所述第一表格的主键设置为所述第三表格的外键,以将所述第一表格和所述第三表格关联。
28、根据本发明具体实施方式提供的一种文档标注装置,包括:
29、转换模块,用于将待标注文档转换为携带有文档结构信息的目标文档,所述目标文档中包括有:文档标签,其中每个文档标签均携带有结构标题;
30、解析模块,用于从所述目标文档中获得所述待标注文档的层级结构;
31、标注模块,用于显示所述层级结构的标题标注界面,所述标题标注界面中显示有所述待标注文档中的至少部分结构标题;以及
32、存储模块,用于响应于用户对所述标题标注界面中目标结构标题的标注操作,将目标结构标题和用户输入的标注内容对应保存。
33、根据本发明具体实施方式提供的一种存储介质,所述存储介质中存储有程序,所述程序被处理器执行时实现如上所述的文档标注方法的各个步骤。
34、根据本发明具体实施方式提供的一种电子设备,包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中所述处理器和所述存储器通过总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行以上所述的文档标注方法的各个步骤。
35、本发明的文档标注方法可以将待标注文档转换为携带有文档结构信息的目标文档,目标文档中包括有:文档标签,其中每个文档标签均携带有结构标题。然后从目标文档中获得待标注文档的层级结构。显示层级结构的标题标注界面,标题标注界面中显示有待标注文档中的至少部分结构标题;响应于用户对标题标注界面中目标结构标题的标注操作,将目标结构标题和用户输入的标注内容对应保存。本发明的文档标注方法能够在保留了原文档的结构信息的基础上对文档的结构信息进行标注,能够进一步的满足对文档结构的识别模型的训练需求。
1.一种文档标注方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述标题标注界面中至少包括有:第一子区域和第二子区域;
3.根据权利要求2所述的方法,其特征在于,所述标题标注界面还包括:第三子区域,所述第三子区域显示有检索框和检索结果框;
4.根据权利要求1所述的方法,其特征在于,所述结构标题包括:章节标题和内容标题,所述内容标题为层级最低的章节下的文档内容的标题;
5.根据权利要求4所述的方法,其特征在于,所述从所述目标文档中获得所述待标注文档的层级结构,包括:
6.根据权利要求5所述的方法,其特征在于,所述显示所述层级结构的标题标注界面,所述标题标注界面中显示有所述待标注文档中的至少部分结构标题,包括:
7.根据权利要求1所述的方法,其特征在于,所述响应于用户对所述标题标注界面中目标结构标题的标注操作,将目标结构标题和用户输入的标注内容对应保存,包括:
8.一种文档标注装置,其特征在于,包括:
9.一种存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时实现如权利要求1至7任一项所述的文档标注方法的各个步骤。
10.一种电子设备,其特征在于,包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中所述处理器和所述存储器通过总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行权利要求1至7中任一项所述的文档标注方法的各个步骤。