识别文档章节标题的方法及装置、电子设备、存储介质与流程

文档序号:29615065发布日期:2022-04-13 11:12阅读:来源:国知局

技术特征:
1.一种识别文档章节标题的方法,其特征在于,包括:确定文档中的至少一个段落;获取各段落的格式特征、段落向量和正则匹配特征;所述正则匹配特征用于表征各段落对预设字符的正则匹配结果;根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题。2.根据权利要求1所述的方法,其特征在于,获取各段落的段落向量,包括:对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;根据各段落对应的词向量和词位置向量分别获取各段落的段落向量。3.根据权利要求2所述的方法,其特征在于,根据各段落对应的词向量和词位置向量分别获取各段落的段落向量,包括:将各段落对应的词向量和词位置向量分别进行叠加处理,获得各段落对应的张量;将各段落对应的张量分别映射为各段落对应的编码向量,并将各段落对应的编码向量分别确定为各段落的段落向量。4.根据权利要求1所述的方法,其特征在于,获取各段落的段落向量,包括:对各段落进行词向量化处理,获得各段落对应的词向量;对各段落进行分句向量化处理,获得各段落对应的分句向量;对各段落进行词位置向量化处理,获得各段落对应的词位置向量;根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量。5.根据权利要求4所述的方法,其特征在于,根据各段落对应的词向量、分句向量和词位置向量分别获取各段落的段落向量,包括:将各段落对应的词向量、分句向量和词位置向量分别进行叠加处理,获得各段落对应的张量;将各段落对应的张量分别映射为各段落对应的编码向量,并将各段落对应的编码向量分别确定为各段落的段落向量。6.根据权利要求1所述的方法,其特征在于,获取各段落的正则匹配特征,包括:针对每个所述段落执行以下处理:在所述段落中查找至少一个预设字符;将查找到的至少一个预设字符进行向量化处理,得到与所述至少一个预设字符一一对应的至少一个字符特征;将所述至少一个字符特征进行融合处理,得到所述段落的正则匹配特征。7.根据权利要求1所述的方法,其特征在于,获取各段落的格式特征,包括:针对每个所述段落执行以下处理:提取所述段落的格式信息;将提取到的格式信息进行向量化处理,得到所述段落的格式特征。8.根据权利要求1所述的方法,其特征在于,根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题,包括:将各段落的格式特征、段落向量和正则匹配特征分别进行拼接,获得各段落的识别特
征;对各所述识别特征分别进行分类识别处理,获得各段落对应的识别结果;所述识别结果用于表征段落在文档中是否为章节标题。9.根据权利要求1至8任一项所述的方法,其特征在于,根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题后,还包括:在段落为章节标题的情况下,根据所述段落生成目录;将生成的目录在所述文档中进行显示。10.根据权利要求9所述的方法,其特征在于,根据所述段落生成目录,包括:获取所述段落的特征信息;在预设的规则文件表中对所述特征信息进行查表操作,获得所述段落的目录层级;预设的规则文件表中存储有特征信息与目录层级之间的对应关系;将所述段落按照所述目录层级生成目录。11.一种识别文档章节标题的装置,其特征在于,包括:段落确定模块,被配置为确定文档中的至少一个段落;格式特征获取模块,被配置为获取各段落的格式特征;段落向量获取模块,被配置为获取各段落的段落向量;正则匹配特征获取模块,被配置为获取各段落的正则匹配特征;所述正则匹配特征用于表征各段落对预设字符的正则匹配结果;章节标题识别模块,被配置为根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在所述文档中是否为章节标题。12.一种电子设备,包括处理器和存储有程序指令的存储器,其特征在于,处理器被配置为在运行所述程序指令时,执行如权利要求1至10任一项所述的识别文档章节标题的方法。13.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至10任一项所述的识别文档章节标题的方法。

技术总结
本申请涉及文本处理技术领域,公开一种识别文档章节标题的方法,包括:确定文档中的至少一个段落;获取各段落的格式特征、段落向量和正则匹配特征;所述正则匹配特征用于表征各段落对预设字符的正则匹配结果;根据各段落的格式特征、段落向量和正则匹配特征分别识别各段落在文档中是否为章节标题。这种方式不需要用户人工判断文档中的各段落是否为章节标题,不但提高了识别文档中的段落是否为章节标题的效率,还便于自动根据确定为章节标题的段落自动生成目录。本申请还公开一种识别文档章节标题的装置、电子设备、存储介质。存储介质。存储介质。


技术研发人员:王伟华 潘云嵩 张家瑞
受保护的技术使用者:珠海金山办公软件有限公司 北京金山办公软件股份有限公司 武汉金山办公软件有限公司
技术研发日:2021.11.30
技术公布日:2022/4/12
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1