识别文档章节标题的方法及装置、电子设备、存储介质与流程

文档序号:29615065发布日期:2022-04-13 11:12阅读:193来源:国知局
识别文档章节标题的方法及装置、电子设备、存储介质与流程

1.本技术涉及文本处理技术领域,例如涉及一种识别文档章节标题的方法及装置、电子设备、存储介质。


背景技术:

2.文档的目录主要用于展现章节信息给读者,便于读者快速浏览或编辑需要的章节。
3.文档目录通常为文档中的章节标识段落,例如,“2.1人机交互框架设计”等。现有技术中,用户在写好文档后,无法根据文档的内容自动生成目录,需要用户针对文档中的内容人工去编辑整理文档目录,其中,人工编辑整理文档目录需要用户识别文档中的各段落是否是文档中的章节标题,其效率低且人工成本高。


技术实现要素:

4.为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
5.本公开实施例提供了一种识别文档章节标题的方法及装置、电子设备、存储介质,以能够自动识别文档中的段落是否为章节标题。
6.在一些实施例中,识别文档章节标题的方法,包括:确定文档中的至少一个段落;获取各段落的格式特征、段落向量和正则匹配特征;所述正则匹配特征用于表征各段落对预设字符的正则匹配结果;根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题。
7.在一些实施例中,获取各段落的段落向量,包括:对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;根据各段落对应的词向量和词位置向量分别获取各段落的段落向量。
8.在一些实施例中,根据各段落对应的词向量和词位置向量分别获取各段落的段落向量,包括:将各段落对应的词向量和词位置向量分别进行叠加处理,获得各段落对应的张量;将各段落对应的张量分别映射为各段落对应的编码向量,并将各段落对应的编码向量分别确定为各段落的段落向量。
9.在一些实施例中,获取各段落的段落向量,包括:对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行分句向量化处理,获得各段落对应的分句向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量。
10.在一些实施例中,根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量,包括:将各段落对应的词向量、分句向量和词位置向量分别进行叠加处理,获得各段落对应的张量;将各段落对应的张量分别映射为各段落对应的编码向量,并将
各段落对应的编码向量分别确定为各段落的段落向量。
11.在一些实施例中,获取各段落的正则匹配特征,包括:针对每个所述段落执行以下处理:在所述段落中查找至少一个预设字符;将查找到的至少一个预设字符进行向量化处理,得到与所述至少一个预设字符一一对应的至少一个字符特征;将所述至少一个字符特征进行融合处理,得到所述段落的正则匹配特征。
12.在一些实施例中,获取各段落的格式特征,包括:针对每个所述段落执行以下处理:提取所述段落的格式信息;将提取到的格式信息进行向量化处理,得到所述段落的格式特征。
13.在一些实施例中,根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落是否为章节标题,包括:将各段落的格式特征、段落向量和正则匹配特征分别进行拼接,获得各段落的识别特征;对各所述识别特征分别进行分类识别处理,获得各段落对应的识别结果;所述识别结果用于表征段落在文档中是否为章节标题。
14.在一些实施例中,根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题后,还包括:在段落为章节标题的情况下,根据所述段落生成目录;将生成的目录在所述文档中进行显示。
15.在一些实施例中,根据所述段落生成目录,包括:获取段落的特征信息;在预设的规则文件表中对所述特征信息进行查表操作,获得所述段落的目录层级;预设的规则文件表中存储有特征信息与目录层级之间的对应关系;将所述段落按照所述目录层级生成目录。
16.在一些实施例中,识别文档章节标题的装置,包括:段落确定模块,被配置为确定文档中的至少一个段落;格式特征获取模块,被配置为获取各段落的格式特征;段落向量获取模块,被配置为获取各段落的段落向量;正则匹配特征获取模块,被配置为获取各段落的正则匹配特征;所述正则匹配特征用于表征各段落对预设字符的正则匹配结果;章节标题识别模块,被配置为根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题。
17.在一些实施例中,段落向量获取模块包括:向量处理子模块,被配置为对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;段落向量获取子模块,被配置为根据各段落对应的词向量和词位置向量分别获取各段落的段落向量。
18.在一些实施例中,段落向量获取子模块包括:叠加模块,被配置为将各段落对应的词向量和词位置向量分别进行叠加处理,获得各段落对应的张量;张量映射模块,被配置为将各段落对应的张量分别映射为各段落对应的编码向量;段落向量确定模块,被配置为将各段落对应的编码向量分别确定为各段落的段落向量。
19.在一些实施例中,段落向量获取模块包括:向量处理子模块,被配置为对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行分句向量化处理,获得各段落对应的分句向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;段落向量获取子模块,被配置为根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量。
20.在一些实施例中,段落向量获取子模块包括:叠加模块,被配置为将各段落对应的
词向量、分句向量和词位置向量分别进行叠加处理,获得各段落对应的张量;张量映射模块,被配置为将各段落对应的张量分别映射为各段落对应的编码向量;段落向量确定模块,被配置为将各段落对应的编码向量分别确定为各段落的段落向量。
21.在一些实施例中,正则匹配特征获取模块被配置为通过以下方式获取各段落的正则匹配特征:针对每个所述段落执行以下处理:在所述段落中查找至少一个预设字符;将查找到的至少一个预设字符进行向量化处理,得到与所述至少一个预设字符一一对应的至少一个字符特征;将所述至少一个字符特征进行融合处理,得到所述段落的正则匹配特征。
22.在一些实施例中,格式特征获取模块被配置为通过以下方式获取各段落的格式特征:针对每个所述段落执行以下处理:提取所述段落的格式信息;将提取到的格式信息进行向量化处理,得到所述段落的格式特征。
23.在一些实施例中,章节标题识别模块包括:拼接模块,被配置为将各段落的格式特征、段落向量和正则匹配特征分别进行拼接,获得各段落的识别特征;分类识别模块,被配置为对各所述识别特征分别进行分类识别处理,获得各段落对应的识别结果;所述识别结果用于表征段落在文档中是否为章节标题。
24.在一些实施例中,识别文档章节标题的装置还包括:目录生成模块,被配置为在段落为章节标题的情况下,根据所述段落生成目录;目录显示模块,被配置为将生成的目录在所述文档中进行显示。
25.在一些实施例中,目录生成模块被配置为通过以下方式根据所述目录段落生成目录:获取所述段落的特征信息;在预设的规则文件表中对所述特征信息进行查表操作,获得所述段落的目录层级;预设的规则文件表中存储有特征信息与目录层级之间的对应关系;将所述段落按照所述目录层级生成目录。
26.在一些实施例中,电子设备包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行上述的识别文档章节标题的方法。
27.在一些实施例中,存储介质,存储有程序指令,所述程序指令在运行时,执行上述的识别文档章节标题的方法。
28.本公开实施例提供的识别文档章节标题的方法及装置、电子设备、存储介质,可以实现以下技术效果:
29.首先确定文档中的至少一个段落,然后获取段落的格式特征、段落向量和正则匹配特征,最后根据各段落的格式特征、段落向量和正则匹配特征自动识别各段落在文档中是否为章节标题。这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还便于自动根据确定为章节标题的段落自动生成目录。
30.以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本技术。
附图说明
31.一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:
32.图1是本公开实施例提供的一个识别文档章节标题的方法的示意图;
33.图2是本公开实施例的一个为bert模型的蒸馏示意图;
34.图3是本公开实施例提供的另一个识别文档章节标题的方法的示意图;
35.图4是本公开实施例的一个应用示意图;
36.图5是本公开实施例提供的一个识别文档章节标题的装置的示意图;
37.图6是本公开实施例提供的另一个识别文档章节标题的装置的示意图;
38.图7是本公开实施例提供的一个电子设备的示意图。
具体实施方式
39.为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。
40.本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
41.除非另有说明,术语“多个”表示两个或两个以上。
42.本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,a/b表示:a或b。
43.术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例如,a和/或b,表示:a或b,或,a和b这三种关系。
44.术语“对应”可以指的是一种关联关系或绑定关系,a与b相对应指的是a与b之间是一种关联关系或绑定关系。
45.结合图1所示,本公开实施例提供一种识别文档章节标题的方法,包括:
46.步骤s101,确定文档中的至少一个段落;
47.步骤s102,获取各段落的格式特征、段落向量和正则匹配特征;所述正则匹配特征用于表征各段落对预设字符的正则匹配结果;
48.步骤s103,根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在文档中是否为章节标题。
49.采用本公开实施例提供的识别文档章节标题的方法,首先确定文档中的至少一个段落,然后获取段落的格式特征、段落向量和正则匹配特征,最后根据各段落的格式特征、段落向量和正则匹配特征自动识别各段落在文档中是否为章节标题。这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还便于自动根据确定为章节标题的段落自动生成目录。
50.可选地,确定文档中的至少一个段落,包括:利用段落分隔符和/或换行符提取文档中的至少一个段落。
51.可选地,获取各段落的格式特征,包括:针对每个段落执行以下处理:提取段落的格式信息;将提取到的格式信息进行向量化处理,得到段落的格式特征。
52.可选地,段落的格式信息包括:段落的字号、字体、句子数、字数、段前后边距、段落
长度、是否下划线和段落缩进等中的一种或多种。可以通过词频统计技术、词频-逆文本频率指数(tf-idf)技术等对提取到的格式信息进行向量化处理。
53.可选地,获取各段落的正则匹配特征,包括:针对每个段落执行以下处理:在段落中查找至少一个预设字符;将查找到的至少一个预设字符进行向量化处理,得到与至少一个预设字符一一对应的至少一个字符特征;将至少一个字符特征进行融合处理,得到所述段落的正则匹配特征。可选地,预设字符包括:一、二、三、四、五、六、七、八、九、十、数字或日期等字符。例如,预设字符为“2.1”,在段落“2.1人机交互框架设计”中匹配到该字符“2.1”,则将字符“2.1”进行向量化处理,获得该段落的正则匹配特征。其中,可以通过词频统计技术、词频-逆文本频率指数(tf-idf)技术等对查找到的预设字符进行向量化处理。
54.可选地,获取各段落的段落向量,包括:对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;根据各段落对应的词向量和词位置向量分别获取各段落的段落向量。
55.可选地,根据各段落对应的词向量和词位置向量分别获取各段落的段落向量,包括:将各段落对应的词向量和词位置向量分别进行叠加处理,获得各段落对应的张量;将各段落对应的张量分别映射为各段落对应的编码向量,并将各段落对应的编码向量分别确定为各段落的段落向量。
56.由于词向量表征词的语义,词位置向量表征词在句子中的位置的相对关系。通过词向量和词位置向量来获取段落向量,能够最大限度地还原文档的段落,使得同时利用段落的格式特征、段落向量和正则匹配特征来对段落进行章节标题识别的准确性更高。
57.可选地,将各段落对应的词向量和词位置向量分别进行叠加处理,获得各段落对应的张量,包括:对各段落对应的词向量和词位置向量执行以下处理:将词向量和词位置向量相加,将相加后得到的向量确定为段落对应的张量。
58.可选地,利用段落向量提取模型(例如tinybert模型)获取各段落的段落向量。
59.可选地,段落向量提取模型中的编码器包括若干个block,且每一个block的结构完全相同;将各段落输入段落向量提取模型,段落向量提取模型对各段落进行词向量化处理获得各段落对应的词向量(token embedding),对各段落进行词位置向量化处理获得各段落对应的词位置向量(position embedding);将各段落对应的词向量和词位置向量分别进行叠加获得各段落对应的张量;段落向量提取模型的编码器将各段落对应的张量输入第一个block进行矩阵运算并输出第一个表征向量,将第一个表征向量输入第二个block进行矩阵运算并输出第二个表征向量,将第二个表征向量输入到下一个block进行矩阵运算,直到经过预设数量(取值为正整数)个block的计算后,得到各段落对应的编码向量,以作为各段落的段落向量。可选地,段落向量的维度为预设值(取值为正整数)。可选地,各段落的长度不超过设定阈值(取值为正整数)。
60.通过段落向量提取模型能够将文本的各段落转为数值向量,以作为个段落的段落向量。能够更加快速的获取各段落的段落向量。
61.可选地,获取各段落的段落向量,包括:对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行分句向量化处理,获得各段落对应的分句向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量。
62.可选地,对各段落进行词向量化处理,获得各段落对应的词向量,包括:利用word2vec模型对各段落中的词语经过训练转化为一个k维的稠密词向量。word2vec模型为一种具有神经网络的深度学习工具。其中,k为正整数。
63.可选地,对各段落进行分句向量化处理,获得各段落对应的分句向量,包括:针对各段落执行以下处理:对段落中的每个句子进行编码(encoding),得到每个句子对应的语句向量;将每个句子对应的语句向量进行融合处理(例如向量拼接、向量叠加等),获得段落对应的分句向量。
64.可选地,对各段落进行词位置向量化处理,获得各段落对应的词位置向量,包括:针对各段落执行以下处理:对段落中的每个词语在对应的句子中的位置进行编码,获得每个词语对应的位置向量;将每个词语对应的位置向量进行融合处理(例如向量拼接、向量叠加等),获得段落对应的词位置向量。
65.可选地,根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量,包括:将各段落对应的词向量、分句向量和词位置向量分别进行叠加处理,获得各段落对应的张量;将各段落对应的张量分别映射为各段落对应的编码向量;并将各段落对应的编码向量分别确定为各段落的段落向量。
66.由于词向量表征词的语义,分句向量表征词属于前后哪一个句子,词位置向量表征词在句子中的位置的相对关系。通过词向量、分句向量和词位置向量来获取段落向量,能够最大限度地还原文档的段落,同时能够针对一个段落包含有多个章节标题的场景进行识别,使得同时利用段落的格式特征、段落向量和正则匹配特征来对段落进行章节标题识别的准确性更高。
67.可选地,将各段落对应的词向量、分句向量和词位置向量分别进行叠加处理,获得各段落对应的张量,包括:对各段落对应的词向量、分句向量和词位置向量执行以下处理:将词向量、分句向量和词位置向量相加,将相加后得到的向量确定为段落对应的张量。
68.可选地,利用段落向量提取模型获取各段落的段落向量。
69.可选地,将各段落输入段落向量提取模型,段落向量提取模型对各段落进行词向量化处理获得各段落对应的词向量(token embedding),对各段落进行分句向量化处理获得各段落对应的分句向量(segment embedding),对各段落进行词位置向量化处理获得各段落对应的词位置向量(position embedding);将各段落对应的词向量、分句向量和词位置向量分别进行叠加获得各段落对应的张量;段落向量提取模型的编码器将各段落对应的张量输入第一个block进行矩阵运算并输出第一个表征向量,将第一个表征向量输入第二个block进行矩阵运算并输出第二个表征向量,将第二个表征向量输入到下一个block进行矩阵运算,直到经过预设数量(取值为正整数)个block的计算后,得到各段落对应的编码向量,以作为各段落的段落向量。可选地,段落向量的维度为预设值(取值为正整数)。可选地,各段落的长度不超过设定阈值(取值为正整数)。例如,将段落“公司发展规划”输入段落向量提取模型,获得该段落的段落向量为:[0.3939,0.2939,-0.9333,........0.4343]。
[0070]
通过段落向量提取模型能够将文本的各段落转为数值向量,以作为个段落的段落向量。能够更加快速的获取各段落的段落向量。
[0071]
在一些实施例中,tinybert模型是从bert模型中蒸馏出来的模型,图2为bert模型的蒸馏示意图,如图2所示,将teacher(老师)—bert模型学习到的知识迁移到student(学
生)—tinybert模型中。其中,bert模型有n个transformer layer(预测对应层),tinybert模型有m个transformer layer,其中,n>m,即从bert模型中选择m个transformerlayer用于transformer layer蒸馏。tinybert模型到bert模型的映射函数为n=g(m),即tinybert模型的第m层从bert模型的第n层开始学习知识。图2中,bert模型的词向量层(embedding layer)和预测输出层(prediction layer)的特征表示也被用于知识蒸馏。其中,tinybert模型的词向量层(embedding layer)从bert模型的词向量层学习知识,将bert模型的词向量层作为第0层,即映射函数为0=g(0);tinybert模型的预测输出层(prediction layer)从bert模型的预测输出层学习知识,将bert模型的预测输出层作为n+1层,即映射函数为n+1=g(m+1);tinybert模型的预测对应层(transformer layer)与bert模型的预测对应层的映射函数为n=g(m)。图2中,d为bert模型隐含层特征的维度,d'为tinybert模型隐含层特征的维度,且d'<d,以获得更小的tinybert模型网络。在训练过程中将teacher bert模型中每一层transformer layer的注意力(attention)矩阵和输出作为tinybert模型的监督信息,从而训练tinybert。
[0072]
可选地,根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在文档中是否为章节标题,包括:将各段落的格式特征、段落向量和正则匹配特征分别进行拼接,获得各段落的识别特征;对各识别特征分别进行分类识别处理,获得各段落对应的识别结果;识别结果用于表征段落在文档中是否为章节标题。这样,根据各段落的格式特征、段落向量和正则匹配特征分别进行拼接后的识别特征来识别各段落在文档中是否为章节标题,这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还便于自动根据确定为章节标题的段落自动生成目录。
[0073]
可选地,对各所述识别特征分别进行分类识别处理,获得各段落对应的识别结果,包括:利用预设的分类器对各所述识别特征分别进行分类识别处理,获得各段落对应的识别结果。
[0074]
可选地,将各段落的格式特征、段落向量和正则匹配特征分别进行拼接,获得各段落的识别特征,包括:针对各段落执行以下处理:将段落的格式特征、段落向量和正则匹配特征依次进行拼接,获得段落的识别特征;或,将段落的格式特征、段落向量和正则匹配特征分别乘以对应的权重之后再依次进行拼接,获得段落的识别特征。从而使得段落的识别特征更加具有代表性,从而提高章节标题识别的准确性。
[0075]
可选地,段落的格式特征、段落向量和正则匹配特征分别对应的权重由模型训练过程中得到,或,为预设的。
[0076]
可选地,采用预先训练的章节标题识别分类模型根据各段落的格式特征、段落向量和正则匹配特征分别对各段落进行识别,以实现各段落在文档中是否为章节标题的识别。
[0077]
可选地,将各段落的格式特征、段落向量和正则匹配特征输入预先训练的章节标题识别分类模型,章节标题识别分类模型将各段落的格式特征、段落向量和正则匹配特征分别依次进行拼接,获得各段落的识别特征;章节标题识别分类模型对各识别特征分别进行分类识别处理,获得各段落对应的识别结果,以表征各段落在文档中是否为章节标题。例如,段落的识别结果为“label_1”,则表征该段落为章节标题;段落的识别结果为“label_0”,则表征该段落不为章节标题。这样,通过章节标题识别分类模型对各段落进行识别,能
够自动识别段落是否为章节标题,不需要用户人工判断,能够更快速的处理海量段落的识别,并能够提高识别文档章节标题的准确性。
[0078]
在一些实施例中,文档中有第一个段落“2.1人机交互框架设计”和第二个段落“2.1.1人机协同系统”,分别获取各段落的格式特征、段落向量和正则匹配特征,将各段落的格式特征、段落向量和正则匹配特征输入预先训练的章节标题识别分类模型,章节标题识别分类模型将各段落的格式特征、段落向量和正则匹配特征分别依次进行拼接,获得第一个段落的识别特征为:[0.3838,0.323,0.4843,0.4343,.....,12,23,243,1],第二个段落的识别特征为:[0.2338,0.312,0.4203,0.2132,.....,2,13,123,4],章节标题识别分类模型对这两个识别特征分别进行分类识别处理,得到第一个段落和第二个段落的识别结果均为“label_1”,则确定第一个段落和第二个段落在文档中均为章节标题。
[0079]
可选地,在利用预先训练的章节标题识别分类模型对各段落进行识别之前,还包括训练章节标题识别分类模型,其中,训练章节标题识别分类模型,包括:获取若干个文档样本;获取各文档样本中至少一个段落样本,并对各段落样本标注样本标签;获取各段落样本的格式特征样本、段落向量样本和正则匹配特征样本;利用各段落样本的格式特征样本、段落向量样本、正则匹配特征样本和样本标签对章节标题识别分类模型(例如lightgbm模型)进行训练,获得训练完成的章节标题识别分类模型。可选地,样本标签包括:表征段落是章节标题的标签,例如“label_1”,和,表征段落不是章节标题的标签,例如“label_0”。
[0080]
其中,lightgbm模型是决策树分类模型,决策树的分类是根据段落的识别特征,利用各个树节点去判断该段落是否章节标题。lightgbm模型通过直方图算法(histogram)把连续的特征值离散化成k个整数,同时构造一个宽度为k的直方图,在遍历识别特征中的数据时,根据离散化后的值作为索引在直方图中累积统计量,当遍历完一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,获得最优的分割点。直方图算法能够减少分割增益的计算量,并且将连续的值替换为离散的bins(桶),利用较小的数据类型来存储训练数据并且无需为预排序特征值存储额外的信息,能够减少内存的使用。这样,当章节标题识别分类模型是lightgbm模型时,可以通过lightgbm模型根据各段落的格式特征、段落向量和正则匹配特征分别对各段落进行章节标题识别,能够提高识别文档章节标题的准确性,同时降低内存消耗,并能够更快速的处理海量段落的识别。
[0081]
结合图3所示,本公开实施例提供另一种识别文档章节标题的方法,包括:
[0082]
步骤s201,确定文档中的至少一个段落。
[0083]
步骤s202,获取各段落的格式特征和正则匹配特征;对各段落分别进行词向量化处理、分句向量化处理和词位置向量化处理,获得各段落对应的词向量、分句向量和词位置向量。
[0084]
步骤s203,将各段落对应的词向量、分句向量和词位置向量分别进行叠加处理,获得各段落对应的张量。
[0085]
步骤s204,将各段落对应的张量分别映射为各段落对应的编码向量;将各段落对应的编码向量分别确定为各段落的段落向量。
[0086]
步骤s205,将各段落的格式特征、段落向量和正则匹配特征分别进行依次拼接,获得各段落的识别特征。
[0087]
步骤s206,对各识别特征分别进行分类识别处理,获得各段落对应的识别结果;识
别结果用于表征段落在文档中是否为章节标题。
[0088]
本公开实施例首先确定文档中的至少一个段落,然后获取段落的格式特征、段落向量和正则匹配特征,最后根据各段落的格式特征、段落向量和正则匹配特征自动识别各段落在文档中是否为章节标题。这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还降低了人力成本。同时能够在文档中智能识别出章节标题,便于用户快捷编辑文档,阅读文档。
[0089]
可选地,根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题后,还包括:在段落为章节标题的情况下,根据为章节标题的段落生成目录;将生成的目录在文档中进行显示。
[0090]
可选地,根据为章节标题的段落生成目录,包括:获取为章节标题的段落的特征信息;在预设的规则文件表中对特征信息进行查表操作,获得对应段落的目录层级;预设的规则文件表中存储有特征信息与目录层级之间的对应关系;将为章节标题的段落按照对应的目录层级生成目录。
[0091]
这样,通过对文档中的段落获取格式特征、段落向量和正则匹配特征,进而识别出该段落在文档中是否章节标题,并在识别后将这些识别出的章节标题汇总成目录,然后在文档中显示目录页,从而实现了页面导航。
[0092]
可选地,获取为章节标题的段落的特征信息,包括:针对每个为章节标题的段落执行以下处理:提取段落中字符的字体和/或字号,将段落中字符的字体和/或字号确定为段落的特征信息。在一些实施例中,为章节标题的段落中字符的字体为方正小标宋、字号为小二,在规则文件表中匹配出该段落对应的目录层级为一级目录。又例如,为章节标题的段落的字体为方正黑体、字号为三号,在规则文件表中匹配出该段落对应的目录层级为二级目录。
[0093]
可选地,获取为章节标题的段落的特征信息,包括:在该段落从左往右的第一个字符为数字(可以是阿拉伯数字,例如“1”、“2”等,也可以是任何语言表述的数字,例如中文数字“一”、“二”等)的情况下,将第一个字符与其后连续的数字字符确定为特征信息。在一些实施例中,特征信息为“2”,则在规则文件表中匹配出对应段落的目录层级为一级目录。又例如,特征信息为“2.1”,则在规则文件表中匹配出对应段落的目录层级为二级目录。
[0094]
在实际应用中,如图4所示,对文档中的各段落分别进行识别,段落“2、现有技术”、“2.1现有的云文档,word文档没有智能目录识别的功能”在文档中都为章节标题,段落“2、现有技术”的特征信息为“2”,则对应该段落为一级目录;段落“2.1现有的云文档,word文档没有智能目录识别的功能”的特征信息为“2.1”,则对应该段落为二级目录。然后将识别出的章节标题按照对应的目录层级生成目录,并显示目录页。
[0095]
结合图5所示,本公开实施例提供一种识别文档章节标题的装置,包括:段落确定模块1、格式特征获取模块2、段落向量获取模块3、正则匹配特征获取模块4和章节标题识别模块5。段落确定模块1,被配置为确定文档中的至少一个段落;格式特征获取模块2,被配置为获取各段落的格式特征;段落向量获取模块3,被配置为获取各段落的段落向量;正则匹配特征获取模块4,被配置为获取各段落的正则匹配特征;正则匹配特征用于表征各段落对预设字符的正则匹配结果;章节标题识别模块5,被配置为根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在文档中是否为章节标题。
[0096]
采用本公开实施例提供的识别文档章节标题的装置,首先确定文档中的至少一个段落,然后获取段落的格式特征、段落向量和正则匹配特征,最后根据各段落的格式特征、段落向量和正则匹配特征自动识别各段落在文档中是否为章节标题。这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还便于自动根据确定为章节标题的段落自动生成目录。
[0097]
结合图6所示,段落向量获取模块3包括:向量处理子模块31和段落向量获取子模块32。向量处理子模块31,被配置为对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量。段落向量获取子模块32,被配置为根据各段落对应的词向量和词位置向量分别获取各段落的段落向量。
[0098]
可选地,段落向量获取子模块32包括:叠加模块321、张量映射模块322和段落向量确定模块323。叠加模块321,被配置为将各段落对应的词向量和词位置向量分别进行叠加处理,获得各段落对应的张量。张量映射模块322,被配置为将各段落对应的张量分别映射为各段落对应的编码向量。段落向量确定模块323,被配置为将各段落对应的编码向量分别确定为各段落的段落向量。
[0099]
可选地,向量处理子模块31,被配置为对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行分句向量化处理,获得各段落对应的分句向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量。段落向量获取子模块32,被配置为根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量。
[0100]
可选地,叠加模块321,被配置为将各段落对应的词向量、分句向量和词位置向量分别进行叠加处理,获得各段落对应的张量;张量映射模块322,被配置为将各段落对应的张量分别映射为各段落对应的编码向量;段落向量确定模块323,被配置为将各段落对应的编码向量分别确定为各段落的段落向量。
[0101]
可选地,正则匹配特征获取模块4被配置为通过以下方式获取各段落的正则匹配特征:针对每个段落执行以下处理:在段落中查找至少一个预设字符;将查找到的至少一个预设字符进行向量化处理,得到与至少一个预设字符一一对应的至少一个字符特征;将至少一个字符特征进行融合处理,得到段落的正则匹配特征。
[0102]
可选地,格式特征获取模块2被配置为通过以下方式获取各段落的格式特征:针对每个段落执行以下处理:提取段落的格式信息;将提取到的格式信息进行向量化处理,得到段落的格式特征。
[0103]
可选地,章节标题识别模块5包括:拼接模块51和分类识别模块52。拼接模块51,被配置为将各段落的格式特征、段落向量和正则匹配特征分别进行拼接,获得各段落的识别特征。分类识别模块52,被配置为对各识别特征分别进行分类识别处理,获得各段落对应的识别结果;识别结果用于表征段落在文档中是否为章节标题。
[0104]
可选地,分类识别模块52被配置为通过以下方式对各识别特征分别进行分类识别处理,获得各段落对应的识别结果:利用预设的分类器对各识别特征分别进行分类识别处理,获得各段落对应的识别结果。
[0105]
可选地,识别文档章节标题的装置还包括:目录生成模块6和显示目录模块7。目录生成模块6被配置为在段落为章节标题的情况下,根据为章节标题的段落生成目录。显示目录模块7被配置为将生成的目录在文档中进行显示。
[0106]
可选地,目录生成模块被配置6为通过以下方式根据为章节标题的段落生成目录:获取段落的特征信息;在预设的规则文件表中对特征信息进行查表操作,获得段落的目录层级;预设的规则文件表中存储有特征信息与目录层级之间的对应关系;将段落按照对应的目录层级生成目录。
[0107]
结合图6所示,本公开实施例提供的识别文档章节标题的装置,段落确定模块1确定文档中的至少一个段落,并发送给格式特征获取模块2、段落向量获取模块3和正则匹配特征获取模块4。格式特征获取模块2获取各段落的格式特征,并将各格式特征发送给章节标题识别模块5。正则匹配特征获取模块4获取各段落的正则匹配特征,并将各正则匹配特征发送给章节标题识别模块5。段落向量获取模块3的向量处理子模块31接收各段落,对各段落进行词向量化处理、分句向量化处理和词位置向量化处理,分别获得各段落对应的词向量、分句向量和词位置向量,并将各段落对应的词向量、分句向量和词位置向量发送给段落向量获取子模块32。段落向量获取子模块32的叠加模块321接收各段落对应的词向量、分句向量和词位置向量,并将各段落对应的词向量、分句向量和词位置向量分别进行叠加获得各段落对应的张量。张量映射模块322将各段落对应的张量分别映射为各段落对应的编码向量。段落向量确定模块323将各段落对应的编码向量分别确定为各段落的段落向量,并将各段落向量发送给章节标题识别模块5。章节标题识别模块5的拼接模块51接收段落向量确定模块323发送的各段落向量,接收格式特征获取模块2发送格式特征,接收正则匹配特征获取模块4发送正则匹配特征,并将各段落的格式特征、段落向量和正则匹配特征分别进行拼接,获得各段落的识别特征。分类识别模块52对各识别特征分别进行分类识别处理,获得各段落对应的识别结果;识别结果用于表征段落在文档中是否为章节标题。分类识别模块52将识别到的为章节标题的段落发送给目录生成模块6,目录生成模块6根据为章节标题的段落生成目录,并将生成的目录发送给目录显示模块。目录显示模块7将生成的目录在文档中进行显示。
[0108]
本公开实施例首先确定文档中的至少一个段落,然后获取段落的格式特征、段落向量和正则匹配特征,最后根据各段落的格式特征、段落向量和正则匹配特征自动识别各段落在文档中是否为章节标题。这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还降低了人力成本。同时能够在文档中智能识别出章节标题,便于用户快捷编辑文档,阅读文档。
[0109]
结合图7所示,本公开实施例提供一种电子设备,包括处理器(processor)600和存储有程序指令的存储器(memory)601。可选地,该电子设备还可以包括通信接口(communication interface)602和总线603。其中,处理器600、通信接口602、存储器601可以通过总线603完成相互间的通信。通信接口602可以用于信息传输。处理器600可以调用存储器601中的程序指令,以执行上述实施例的识别文档章节标题的方法。
[0110]
此外,上述的存储器601中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
[0111]
存储器601作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器600通过运行存储在存储器601中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中识别文档章节标题的方法。
[0112]
存储器601可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器。
[0113]
可选地,电子设备包括计算机。
[0114]
本公开实施例提供了一种存储介质,存储有程序指令,所述程序指令在运行时,执行上述识别文档章节标题的方法。
[0115]
本公开实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述识别文档章节标题的方法。
[0116]
上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。
[0117]
本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
[0118]
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本技术中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本技术中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本技术中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个
…”
限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
[0119]
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0120]
本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0121]
附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1