一种标题识别方法、装置、设备和存储介质与流程

文档序号:37929209发布日期:2024-05-11 00:08阅读:来源:国知局

技术特征:

1.一种标题识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,所述根据与所述层级标题模板相匹配的文本块,确定所述层级标题模板对应的候选标题,包括:

4.根据权利要求3所述的方法,其特征在于,所述针对每个所述层级标题模板对应的候选标题进行层级排序过滤,包括:

5.根据权利要求4所述的方法,其特征在于,所述利用有限状态机,对所述层级标题模板对应的各个所述候选标题进行层级排序过滤,包括:

6.根据权利要求3所述的方法,其特征在于,所述根据所述层级排序过滤结果,对所述层级标题模板进行评分,包括:

7.根据权利要求1所述的方法,其特征在于,在所述获取待识别文档之后,在将所述待识别文档划分为多个文本块之前,还包括:

8.一种标题识别装置,其特征在于,包括:

9.一种标题识别设备,其特征在于,包括:至少一个通信接口;与所述至少一个通信接口相连接的至少一个总线;与所述至少一个总线相连接的至少一个处理器;与所述至少一个总线相连接的至少一个存储器,其中,所述处理器被配置为:执行所述存储器中存储的标题识别程序,以实现权利要求1-7中任一项所述的标题识别方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被执行,以实现权利要求1-7中任一项所述的标题识别方法。


技术总结
本申请涉及一种标题识别方法、装置、设备和存储介质。该方法包括:将待识别文档划分为多个文本块;调用预设的多个层级标题模板;针对每个层级标题模板,在多个文本块中,识别出与层级标题模板相匹配的文本块并在其中确定层级标题模板对应的候选标题;针对每个层级标题模板对应的候选标题进行层级排序过滤,并根据层级排序过滤结果,对层级标题模板进行评分;将评分最高的层级标题模板对应的层级排序过滤结果,确认为待识别文档的标题识别结果。本申请的层级标题模板囊括了各种标题样式,使得标题识别更精准,根据标题的层级关系以及序号关系确定候选标题并且进行层级排序过滤,最终选择评分最高的层级排序结果,确保标题识别结果的正确性。

技术研发人员:任禾,刘升平,梁家恩
受保护的技术使用者:云知声智能科技股份有限公司
技术研发日:
技术公布日:2024/5/10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1