一种标题识别方法、装置、设备和存储介质与流程

文档序号:37929209发布日期:2024-05-11 00:08阅读:5来源:国知局
一种标题识别方法、装置、设备和存储介质与流程

本技术涉及计算机,尤其涉及一种标题识别方法、装置、设备和存储介质。


背景技术:

1、在构建大语言模型预训练样本时,对文档中的每个段落标题的识别非常重要,这样可以让模型学习到标题后面的段落文本主要是围绕什么问题展开阐述的。但是,文档的种类多种多样,文档的段落标题也没有统一的格式标记,为此本领域技术人员提出了基于正则表达式的文档段落标题识别方法,以及基于模型的文档段落标题识别方法。

2、但是,现有的文档段落标题识别方法的识别准确性都很低。具体的问题包括:1、将不是标题的文本错误地识别成标题,比较典型的情况是文档中如果存在以数字开头的文本,就比较容易被误认为标题;2、生成的标题同级列表不连续或者存在残缺,这是因为现有的识别方法只是针对单个标题的识别,没考虑标题之间的顺序关系和层级关系,导致识别出的标题不连续或残缺。

3、例如:2型糖尿病(diabetes mellitus type 2,t2dm),因为以数字“2”开头,“2型糖尿病”极易被误认为是一个段落标题,

4、又如:识别出的层级标题列表为:

5、1xxx

6、1.1xxx

7、1.3xxx

8、1yyyy

9、2xxxx。

10、分析上层级标题列表可知,1.1和1.3中间的同级标题序号残缺;1xxx和1yyyy这两个标题序号重复。


技术实现思路

1、本技术提供了一种标题识别方法、装置、设备和存储介质,以解决现有的文档段落标题识别方法的识别准确性低的问题。

2、针对上述技术问题,本技术技术方案是通过如下实施例来解决的:

3、本技术实施例提供了一种标题识别方法,包括:获取待识别文档并且将所述待识别文档划分为多个文本块;调用预先构建的多个层级标题模板;针对每个所述层级标题模板,在多个所述文本块中,识别出与所述层级标题模板相匹配的文本块,并且根据与所述层级标题模板相匹配的文本块,确定所述层级标题模板对应的候选标题;针对每个所述层级标题模板对应的候选标题进行层级排序过滤,并根据所述层级排序过滤结果,对所述层级标题模板进行评分;将评分最高的所述层级标题模板对应的层级排序过滤结果,确认为所述待识别文档的标题识别结果。

4、其中,所述层级标题模板包括具有级别高低属性的多个层级以及每个层级对应的标题样式;所述在多个所述文本块中,识别出与所述层级标题模板相匹配的文本块,包括:按照多个所述文本块在所述待识别文档中的顺序,将每个所述文本块与所述层级标题模板中各个层级对应的标题样式分别进行匹配;识别出与所述层级标题模板中的标题样式相匹配的文本块,并且,将识别出的文本块确定为其匹配的标题样式对应的层级。

5、其中,所述根据与所述层级标题模板相匹配的文本块,确定所述层级标题模板对应的候选标题,包括:在与所述层级标题模板相匹配的文本块中,根据每个所述文本块对应的层级,生成每个所述层级对应的文本块集合;其中,每个所述文本块至少属于一个所述文本块集合;按照每个所述层级的级别高低,在高级别的层级对应的文本块集合中,过滤掉低级别的层级对应的文本块集合中的文本块,将所述高级别的层级对应的文本块集合中剩余的文本块作为所述高级别的层级对应的候选标题;其中,最低级别的层级对应的文本块集合中的文本块直接作为所述最低级别的层级对应的候选标题;将所述层级标题模板中各个级别分别对应的候选标题,确定为所述层级标题模板对应的候选标题。

6、其中,所述针对每个所述层级标题模板对应的候选标题进行层级排序过滤,包括:针对每个所述层级标题模板,在所述层级标题模板对应的每个候选标题中,提取所述候选标题对应的标题序号;根据所述层级标题模板对应的各个所述候选标题分别对应的层级和标题序号,利用有限状态机,对所述层级标题模板对应的各个所述候选标题进行层级排序过滤,形成所述层级标题模板对应的具有树形结构的层级排序过滤结果。

7、其中,所述利用有限状态机,对所述层级标题模板对应的各个所述候选标题进行层级排序过滤,包括:根据所述层级标题模板对应的各个所述候选标题在所述待识别文档中的顺序,顺序对每个所述候选标题执行如下操作:比较当前的所述候选标题对应的层级和后一个所述候选标题对应的层级,并且,比较当前的所述候选标题对应的标题序号和后一个所述候选标题对应的标题序号;如果当前的所述候选标题对应的层级和后一个所述候选标题对应的层级相同,则确定当前的所述候选标题对应的标题序号是否小于后一个所述候选标题对应的标题序号;如果小于,则保留当前的所述候选标题;如果不小于,则删除当前的所述候选标题;如果当前的所述候选标题对应的层级和后一个所述候选标题对应的层级不同,则确定当前的所述候选标题对应的层级和后一个所述候选标题对应的层级是否相邻;如果相邻,则确定当前的所述候选标题对应的标题序号是否小于前一个所述候选标题对应的标题序号;如果小于,则保留当前的所述候选标题;如果不小于或者不相邻,则删除当前的所述候选标题。

8、其中,所述根据所述层级排序过滤结果,对所述层级标题模板进行评分,包括:确定所述层级排序过滤结果中包括的候选标题的数量,并且将所述数量作为所述层级标题模板的评分。

9、其中,在所述获取待识别文档之后,在将所述待识别文档划分为多个文本块之前,还包括:设置标题序号对应的文本类型;在所述待识别文档中,将具有所述文本类型的文本内容进行文本样式的标准化处理。

10、本技术实施例还提供了一种标题识别装置,包括:获取和划分模块,用于获取待识别文档并且将所述待识别文档划分为多个文本块;调用模块,用于调用预先构建的多个层级标题模板;识别和确定模块,用于针对每个所述层级标题模板,在多个所述文本块中,识别出与所述层级标题模板相匹配的文本块,并且根据与所述层级标题模板相匹配的文本块,确定所述层级标题模板对应的候选标题;过滤和评分模块,用于针对每个所述层级标题模板对应的候选标题进行层级排序过滤,并根据所述层级排序过滤结果,对所述层级标题模板进行评分;确认模块,用于将评分最高的所述层级标题模板对应的层级排序过滤结果,确认为所述待识别文档的标题识别结果。

11、本技术实施例还提供了一种标题识别设备,包括:至少一个通信接口;与所述至少一个通信接口相连接的至少一个总线;与所述至少一个总线相连接的至少一个处理器;与所述至少一个总线相连接的至少一个存储器,其中,所述处理器被配置为:执行所述存储器中存储的标题识别程序,以实现上述任一项所述的标题识别方法。

12、本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被执行,以实现上述任一项所述的标题识别方法。

13、本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的方法可以获取待识别文档并且将所述待识别文档划分为多个文本块;调用预设的多个层级标题模板;针对每个所述层级标题模板,在多个所述文本块中,识别出与所述层级标题模板相匹配的文本块,并且根据与所述层级标题模板相匹配的文本块,确定所述层级标题模板对应的候选标题;针对每个所述层级标题模板对应的候选标题进行层级排序过滤,并根据所述层级排序过滤结果,对所述层级标题模板进行评分;将评分最高的所述层级标题模板对应的层级排序过滤结果,确认为所述待识别文档的标题识别结果。本技术实施例利用多个层级标题模板分别执行标题识别,囊括了各种标题样式,使得标题识别更精准,为标题识别的准确性提供了基础。本技术实施例利用层级标题模板匹配出疑似标题的文本块,根据真实标题之间的层级关系以及序号关系,在疑似标题的文本块中确定候选标题,并且对候选标题进行层级排序过滤,最终选择评分最高的层级排序结果作为待识别文档的标题识别结果,确保标题识别结果的正确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1