本发明属于数据处理,具体涉及基于融合视觉信息的文档目录智能生成方法及系统。
背景技术:
1、随着信息技术的迅速发展,每天都会产生大量的不同格式的文档,例如:word文档、pdf文档、图片格式的文档,甚至是纸质文档。在阅读这些文档时,常常会使用目录来筛选或快速定位所需要的信息。但是实际中大多数的文档没有目录信息,此时如果依靠人工来手动生成,会耗费一定的时间成本,尤其是某一级标题下存在很多子标题的情况下,时间成本会线性增长。因此,亟需一种能快速准确的生成文档目录的方法,在保证准确性的前提下提高目录生成的效率。
2、近年来,随着计算机视觉和自然语言处理算法的突飞猛进,利用自然语言处理技术和计算机视觉相结合的算法来进行文档识别和理解成为趋势。基于此,提出了利用人工智能算法来对文档中目录智能识别并结构化的方法。目前,现有的目录自动生成技术主要有以下两种方式:
3、第一种方式只利用自然语言处理技术对文档的文本信息进行目录的识别,例如申请号分别为cn202210724595.x、cn201810717480.1、cn201910973998.6、cn202111420845.2公开的目录识别技术。该方式包含两种识别方案,一种方案首先确认文件目录的存在,通过对存在的多个目录页文本内容进行识别,得到目录的版式信息;然后对目录的版式信息进行去噪、分栏、去重等一系列操作得到目录结构。如果目录不存在,通过一些文件协议对字体的样式、粗细等特征进行组装、匹配、识别得到目录结果。另一种方案则是通过识别文本段落是否是文档标题,首先确定文档中的至少一个段落,接着获取各个段落的向量信息,然后将得到的段落向量输入到分类模型,得到是否是标题的结果。
4、第二种方式通过利用多模态模型来生成目录,即利用自然语言处理与计算机视觉技术来识别并生成目录。例如申请号为cn202010919654.x的专利文献公开的文档目录生成方法,其首先通过ocr识别得到文本框信息,然后将文本框信息输入到结构类别识别模型来得到每个文本框的结构类别,基于文本框的结构类别得到标题,最后将标题输入到标题等级识别模型得到标题等级信息以组装成目录。
5、上述现有的目录自动生成技术,存在以下缺点和不足:
6、第一种方式只利用自然语言处理技术进行目录的识别,对一些图片格式的无法识别,对各种类型的文档支持度较低。另一方面,用户可能在正文中对标题和标号进行修改后,并没有及时的更新目录,导致目录版式中的目录标题和目录标号和正文不对应的问题,如果只识别目录并展示给用户,会有一定的误差。另外,自动生成的目录并不会包含所有的标题标号,存在缺少的问题,并且自动生成目录的前提是需要以一定格式来进行区分,比如word中标题一、标题二等,每次的标题都需要进行固定的格式化,若标题不按照规定的格式、字体、字号来组织,都可能会导致目录抽取失败。
7、第二种多模态的方式将自然语言处理和计算机视觉结合起来,训练多个多模态模型来处理不同的任务,最后输出最终的结果。多模态的方式首先通过第一个多模态模型来预测文本框,然后在利用第二个多模态模型在文本框的基础上进行结构识别,来确定文本框是属于标题、正文或者表格中的哪一个属性,最后在结构识别的基础上再通过一个标题等级识别模型来输出标题在文中的等级,如一级标题、二级标题等。文本框的结构识别十分依赖文档的版式结构,若版式有较大变化,如字体字号、格式以及标题前面是否有序号及缩进的变化,会增加识别的错误率,并且该方式在训练的前期需要对大量文档的各种文本框进行人工标注,非常浪费人力成本,并且在训练及推理过程中相比于普通的模型推理时间和资源占用都高。
技术实现思路
1、基于现有技术中存在的上述缺点和不足,本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本发明的目的之一是提供满足前述需求之一或多个的基于融合视觉信息的文档目录智能生成方法及系统。
2、为了达到上述发明目的,本发明采用以下技术方案:
3、基于融合视觉信息的文档目录智能生成方法,包括以下步骤:
4、s1、对上传的文件进行文本视觉识别,得到视觉信息;其中,视觉信息包括文本行信息及文本坐标;
5、s2、将视觉信息输入第一文本分类模型,以输出目标换行标签;根据目标换行标签对文本行信息进行段落版式复原,得到文档段落信息;
6、s3、基于文档段落信息进行文档目录识别并判断是否存在目录;若是,则将文档段落信息中的目录删除得到目标文档;若否,则将文档段落信息作为目标文档;
7、s4、基于目标文档进行目录标题识别,得到初定目录标题信息;将初定标题信息输入第二文本分类模型,以验证初定目录标题信息中的各目录标题是否均为标题标签;若是,则转至步骤s5;
8、s5、将初定目录标题信息进行目录结构化输出。
9、作为优选方案,所述步骤s1中,利用ocr文本识别对上传的文件进行文本视觉识别。
10、作为优选方案,所述第一文本分类模型为bert模型;
11、其中,第一文本分类模型的换行标签有四个:
12、第一换行标签代表在文本行的开始位置添加换行符,作为段落的开始行;
13、第二换行标签代表在文本行的末尾位置添加换行符,作为段落的结束行;
14、第三换行标签代表在文本行的开始位置和末尾位置均添加换行符,作为单独的段落;
15、第四换行标签代表文本行无需添加换行符,作为段落的正文行。
16、作为优选方案,所述步骤s3中,文档目录识别的过程包括:
17、将文档段落信息与目录标题规则库进行匹配,识别连续m行的目录标题;若每个目录标题在文档段落信息全文中出现的次数都大于1次,则将第一次出现的目录标题及其在全文中第二次出现的位置中间的内容识别为目录,其他部分的内容为正文;
18、其中,m为大于5的整数。
19、作为优选方案,若目录标题在文档段落信息全文中仅出现1次,则利用编辑距离算法对目录标题与文档段落信息全文中的目标标题信息进行编辑距离计算并判断编辑距离是否小于预设距离阈值;若是,则目标标题与目录标题等同。
20、作为优选方案,所述步骤s4中,目录标题识别的过程包括:
21、将目标文档的每一段文本与标题标号库的标号进行匹配;若匹配成功,则相应的段文本为标题段;若匹配失败,则相应的段文本为正文段落。
22、作为优选方案,所述第二文本分类模型为bert模型。
23、作为优选方案,所述步骤s5中,初定目录标题信息以树状结构输出。
24、本发明还提供基于融合视觉信息的文档目录智能生成系统,应用如上任一项方案所述的文档目录智能生成方法,所述文档目录智能生成系统包括:
25、文本视觉识别模块,用于对上传的文件进行文本视觉识别,得到视觉信息;其中,视觉信息包括文本行信息及文本坐标;
26、第一文本分类模型,用于以视觉信息为输入,以输出目标换行标签;
27、复原模块,用于根据目标换行标签对文本行信息进行段落版式复原,得到文档段落信息;
28、文档目录识别模块,用于基于文档段落信息进行文档目录识别;
29、判断模块,用于根据文档目录识别的结果判断是否存在目录;
30、删除模块,用于当文档段落信息存在目录时删除目录,得到目标文档;
31、目录标题识别模块,用于基于目标文档进行目录标题识别,得到初定目录标题信息;
32、第二文本分类模型,用于以初定目录标题信息为输入,以验证初定目录标题信息中的各目录标题是否均为标题标签;
33、输出模块,用于当初定目录标题信息中的各目录标题均为标题标签时,将初定目录标题信息进行目录结构化输出。
34、本发明与现有技术相比,有益效果是:
35、(1)本发明基于融合视觉信息的文本分类模型对识别的文本行信息进行段落复原,提高目录识别和标题识别的准确率,相较于多模态的方式,推理速度提高且消除文档版式对结果的影响;相较于传统的方式,识别准确性更高;
36、(2)本发明先对文档的目录进行识别,然后将识别后的目录从原始文档中删除,减少目录对后续结构化输出的干扰;
37、(3)本发明首先进行初次的目录标题识别,然后对初次识别的结果通过文本分类模型对目录标题进行二次校验,进一步提高目录标题的识别准确率。