文件中图片标注信息识别方法、装置及服务器与流程

文档序号:12825593阅读:360来源:国知局
文件中图片标注信息识别方法、装置及服务器与流程

本发明涉及信息处理技术领域,具体涉及一种文件中图片标注信息识别方法、装置、服务器及计算机存储介质。



背景技术:

随着网络技术的发展,人们可以通过不同的设备、不同的途径获得各种各样的电子文件,这些电子文件极大地丰富了人们的工作和生活内容。

很多时候,需要对电子文件进行重新排版,对于包含图片的文件,文件中一般还会包含图片的标注信息。然而,在现有技术的排版过程中,图片的标注信息的识别准确率较低,而且很容易将图片标注信息与图片错误地关联在一起,或者将文件中非图片标注信息与图片错误地关联在一起,导致关联后的文本并不能正确地对图片进行解释和说明,从而影响用户的阅读,进而影响文件的浏览量。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文件中图片标注信息识别方法、文件中图片标注信息识别装置、服务器和计算机存储介质。

根据本发明的一个方面,提供了一种文件中图片标注信息识别方法,包括:

对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;

从多个第一文本对象集合中过滤掉正文文本对象集合;

遍历文件的所有页面,查询到所有页面中包含图片的图片页面;

针对每个图片页面,筛选得到至少一个第二文本对象集合;

针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;

从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

根据本发明的另一方面,提供了一种文件中图片标注信息识别装置,包括:

聚类分析模块,适于对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;

过滤模块,适于从多个第一文本对象集合中过滤掉正文文本对象集合;

查询模块,适于遍历文件的所有页面,查询到所有页面中包含图片的图片页面;

筛选模块,适于针对每个图片页面,筛选得到至少一个第二文本对象集合;

验证模块,适于针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;

关联模块,适于从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

根据本发明的又一方面,提供了一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文件中图片标注信息识别方法对应的操作。

根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如上述文件中图片标注信息识别方法对应的操作。

根据本发明提供的方案,先对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,可以进一步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的文件中图片标注信息识别方法的流程示意图;

图2示出了根据本发明另一个实施例的文件中图片标注信息识别方法的流程示意图;

图3示出了根据本发明另一个实施例的文件中图片标注信息识别方法的流程示意图;

图4是最小矩形区域的示意图;

图5示出了页面包含的图片和图片标注信息的示意图;

图6示出了根据本发明一个实施例的文件中图片标注信息识别装置的结构示意图;

图7示出了根据本发明另一个实施例的文件中图片标注信息识别装置的结构示意图;

图8示出了根据本发明另一个实施例的文件中图片标注信息识别装置的结构示意图;

图9示出了根据本发明一个实施例的服务器的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的文件中图片标注信息识别方法的流程示意图。其中,图片标注信息包括:图题和/或图注,文本对象设置在图片上方称为图题,文本对象设置在图片下方称为图注。如图1所示,该方法包括以下步骤:

步骤s100,对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合。

在对文件中的文本对象进行文字样式聚类分析之前,需要对文件进行初步识别,得到文件包含的文本对象,然后对文件中的文本对象进行解析得到文本对象的文字样式,在得到文字样式之后,对文本对象进行文字样式聚类分析,将具有相同文字样式的文本对象聚类在一起,得到具有不同文字样式的多个第一文本对象集合,其中,每个第一文本对象集合包含同一种文字样式的文本对象。

步骤s101,从多个第一文本对象集合中过滤掉正文文本对象集合。

步骤s100是对整个文件中的文本对象进行的文字样式聚类分析,所得到的多个第一文本对象集合中包含了正文文本对象集合,一般情况下,正文的文本对象的项数较多,为了能够提升图片标注信息识别速率,节省验证资源,可以首先从多个第一文本对象集合中过滤掉正文文本对象集合,其中,正文文本对象集合为非图片标注信息的文本对象集合。

步骤s102,遍历文件的所有页面,查询到所有页面中包含图片的图片页面。

对于任一文件,可能存在部分页面不包含图片的情况,因此,需要遍历文件的所有页面,从文件的所有页面中查找出包含图片的图片页面,具体地,可以根据图片属性信息查询到所有页面中包含图片的图片页面。

步骤s103,针对每个图片页面,筛选得到至少一个第二文本对象集合。

在查询到所有页面中包含图片的图片页面之后,针对每个图片页面,还需要筛选得到文本对象集合可能是图片标注信息的文本对象集合,即,至少一个第二文本对象集合。

步骤s104,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉。

步骤s103仅是粗略的筛选,筛选得到的第二文本对象集合中可能还包含非图片标注信息的文本对象集合,因此,在得到至少一个第二文本对象集合后,针对每一个第二文本对象集合,还需要对整个文件中属于该文字样式的文本对象进行有效性验证,验证该文字样式是否是图片标注信息的文字样式。

具体地,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则说明该文本对象不是图片标注信息,这样可以确定与该文本对象具有相同文字样式的文本对象都不是图片标注信息,则可以将属于该文字样式的第二文本对象集合过滤掉,从而进一步提升了图片与图片标注信息关联的准确性。

步骤s105,从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

未被过滤掉的第二文本对象集合中的文本对象可以认定为是图片标注信息,因此,在确定了图片标注信息后,可以从未被过滤掉的第二文本对象集合中提取出文本对象,然后根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系,从而准确地将图片标注信息与图片关联在一起。

根据本发明上述实施例提供的方法,先对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,可以进一步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,不仅能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的阅读文件,提升文件的浏览量。

图2示出了根据本发明另一个实施例的文件中图片标注信息识别方法的流程示意图。如图2所示,该方法包括以下步骤:

步骤s200,对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合。

在对文件中的文本对象进行文字样式聚类分析之前,首先,需要对文件进行初步识别,得到文件包含的文本对象,然后,对文件中的文本对象进行解析得到文本对象的文字样式,其中,文字样式包括:文字字号和文字字体,在得到文字样式之后,对文本对象进行文字样式聚类分析,将具有相同文字样式的文本对象聚类在一起,举例说明,对于文本对象1,根据文本对象1的文字样式创建文字样式1的文本对象集合,并将文本对象1划分到文字样式1的文本对象集合中,然后将文本对象2的文字样式与文本对象1的文字样式进行比较,确定文本对象2的文字样式不同于文字对象1的文字样式,则根据文本对象2的文字样式创建文字样式2的文本对象集合,并将文本对象2划分到文字样式2的文本对象集合中,对于其他的文本对象类似,这里不再赘述,最后得到具有不同文字样式的多个第一文本对象集合,其中,每个第一文本对象集合包含同一种文字样式的文本对象。

步骤s201,对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。

步骤s200是对整个文件中的文本对象进行的文字样式聚类分析,所得到的多个第一文本对象集合中包含了正文文本对象集合,一般情况下,正文的文本对象的项数较多,为了能够提升图片标注信息识别速率,节省验证资源,对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,文本对象的总项数大于预设项数阈值表明该文本对象集合不可能是图片标注信息的文本对象集合,然后,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉,这样可以从多个第一文本对象集合中过滤掉正文文本对象集合,其中,正文文本对象集合为非图片标注信息的文本对象集合,预设项数阈值可以根据实际经验进行设定。

步骤s202,遍历文件的所有页面,查询到所有页面中包含图片的图片页面。

对于任一文件,可能存在部分页面不包含图片的情况,因此,需要遍历文件的所有页面,从文件的所有页面中查找出包含图片的图片页面,在遍历文件的所有页面之前,需要对文件进行初步识别,主要是为了得到文件包含的文字和图片,然后,根据图片属性信息查询到所有页面中包含图片的图片页面。

一般情况下,图片标注信息的文字字号小于正文文本对象的文字字号,也就是说,图片页面中可能包含非图片标注信息的文本对象,为了能够节省验证资源,并且提升文件中图片标注信息的识别速率,需要先对图片页面中的文本对象进行初步筛选,可以采用如下方法:

针对每个图片页面,根据图片页面中所有文本对象的文字字号和最小矩形覆盖原则对所有文本对象进行筛选,筛选得到至少一个第二文本对象集合,具体地,可以通过步骤s203-步骤s206实现:

步骤s203,针对每个图片页面,将图片页面中所有文本对象的文字字号与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值的文本对象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于预设字号阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合。

文字字号限定了文本对象的字体大小,因此,文字字号是区分文本对象具体内容的一个重要属性,文件中可能会使用多种文字字号来限定不同文本对象的字体大小。一般情况下,图片标注信息的文字字号往往偏小。因此,在查询到所有页面中包含图片的图片页面之后,针对每个图片页面,根据图片页面中文本对象的文字字号进行初步筛选,筛选出图片页面中哪些文本对象可能是图片标注信息。

举例说明,文件中除了正文以外,还可能包含标题、图片标注信息、注释、页码等文字,一般在进行排版时会分别为上述文字设置不同的文字字号,例如,设定标题、图片标注信息、注释、页码的文字字号分别为:18、12、10、8,因此,根据文字字号可以将文字对象的属性区分开,但由于预先并不了解各属性文字对象的实际字号,因此无法直接根据字号来识别出文字对象的具体属性。

在查询到所有页面中包含图片的图片页面之后,可以将图片页面中所有文本对象的文字字号与预设字号阈值进行比较,其中,预设字号阈值可以是本领域技术人员根据经验设定的,例如,可以设定预设字号阈值为12,若文本对象的文字字号小于或等于12,表明该文本对象可能是图片标注信息;若文本对象的文字字号大于12,表明该文本对象不可能是图片标注信息,那么该文本对象所属的文本对象集合不可能是图片标注信息的文本对象集合,因此,可以将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合。当然这里的文字字号、预设字号阈值仅仅是举例说明,不具有任何限定作用。

当然,本发明还可以仅根据文本对象的文字字号筛选得到至少一个第二文本对象集合,具体地,将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。但是为了进一步提升准确性,在根据文字字号来进行筛选后,再利用最小矩形覆盖原则对文字字号小于或等于预设字号阈值的文本对象进行验证。

根据文本对象的文字字号进行筛选,仅是初步地筛选,文件中图片标注信息、注释、页码对应的文本对象的文字字号一般都小于或等于预设字号阈值,因此在得到文字字号小于或等于预设字号阈值的文本对象之后,针对每个图片页面,还要对图片页面中文字字号小于或等于预设字号阈值的文本对象进行验证,具体采用如下方法:

步骤s204,针对每个文字字号小于或等于预设字号阈值的文本对象,判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若包含图片与文本对象的最小矩形区域中覆盖了其他文本对象,表明该文本对象不可能是图片标注信息,则执行步骤s205;若包含图片与文本对象的最小矩形区域中未覆盖其他文本对象,表明该文本对象可能是图片标注信息,则执行步骤s206。

一般情况下,页面中图片与图片标注信息位置是相邻的,例如,图片标注信息在图片的上方或下方,或者图片标注信息在图片的右侧,而且在排版时,包含图片与图片标注信息的最小矩形区域内不会存在其他文本对象,因此,可以通过判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,来确定该文本对象能否作为图片标注信息,进而确定该文本对象所属的文本对象集合能否作为待确认的图片标注信息的文本对象集合,其中,最小矩形区域指包含图片与文本对象的最小矩形,图4对最小矩形区域进行了示意性说明。

本实施例中,利用最小矩形区域覆盖原则对文字字号小于或等于预设字号阈值的文本对象进行验证,可以进一步筛选出文字字号小于或等于预设字号阈值的文本对象中不能作为图片标注信息的文本对象,进而筛选出不能作为图片标注信息的文本对象集合,不仅能够节省后续的验证资源,而且还进一步提升了图片与图片标注信息关联的准确性。

当然,本发明还可以仅利用最小矩形覆盖原则筛选得到至少一个第二文本对象集合,即本实施例中步骤s203为可选步骤。如不包含步骤s203,则在步骤s204中,针对每个图片页面的每个文本对象,判断包含图片与该文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合,这里不做具体说明。

步骤s205,将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合。

在判断出包含图片与文本对象的最小矩形区域中覆盖了其他文本对象的情况下,说明该文本对象不可能是图片标注信息,那么该文本对象所属的文本对象集合中的其他文本对象也不可能是图片标注信息,因此,可以将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,而第一文本对象集合中,除非图片标注信息的文本对象集合之外的文本对象集合则被确定为第二文本对象集合。

步骤s206,将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

在判断出包含图片与文本对象的最小矩形区域中未覆盖其他文本对象的情况下,说明该文本对象可能是图片标注信息,那么该文本对象所属的文本对象集合中的其他文本对象也可能是图片标注信息,将第一文本对象集合中,除非图片标注信息的文本对象集合之外的文本对象集合则被确定为第二文本对象集合。

在执行步骤s203-步骤s206之后,部分第二文本对象集合还可能是非图片标注信息的文本对象集合,因此,还需要针对第二文本对象集合中的文本对象进行整个文件的验证,具体地,可以采用如下方法:

步骤s207,针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象的页面是否都包含图片,若包含属于该文字样式的文本对象的页面未都包含图片,表明属于该文字样式的文本对象不可能是图片标注信息,则执行步骤s208;若包含属于该文字样式的文本对象的页面都包含图片,表明属于该文字样式的文本对象可能是图片标注信息,则执行步骤s209。

一般情况下,图片标注信息是与图片同时出现的,也就是说,若某页面中存在图片,那么该页面中还会存在该图片的图片标注信息,因此,可以通过判断包含属于该文字样式的文本对象的页面是否都包含图片来确定属于该文字样式的文本对象是否为图片标注信息。本方法对文本对象的筛选较为严格,从而提升了第二文本对象集合中文本对象是真正意义的图片标注信息的概率。

步骤s208,将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

若包含属于该文字样式的文本对象的页面未都包含图片,那么可以认定属于该文字样式的第二文本对象集合不是图片标注信息的文本对象集合,则可以将属于该文字样式的第二文本对象集合过滤掉,将该第二文本对象集合确定为非图片标注信息的文本对象集合,也就是说,进一步确定了非图片标注信息的文本对象集合,从而能够提升根据最小矩形覆盖原则对第二文本对象集合进行验证的准确性。

当然,本发明还可以仅判断包含属于该文字样式的文本对象的页面是否都包含图片来确定属于该文字样式的文本对象是否可能是图片标注信息,但是为了进一步提升准确性,再利用最小矩形覆盖原则对第二文本对象集合进行进一步地验证。

步骤s209,针对每一个第二文本对象集合,在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象,若包含图片与属于该文字样式的文本对象的最小矩形区域中覆盖了其他文本对象,表明属于该文字样式的文本对象不可能是图片标注信息,则步骤s210;若包含图片与属于该文字样式的文本对象的最小矩形区域中未覆盖其他文本对象,表明属于该文字样式的文本对象可能是图片标注信息,则执行步骤s211。

为了保证第二文本对象集合中的文本对象是真正意义上的图片标注信息,在利用步骤s207对第二文本对象集合中的文本对象进行处理之后,还需要对未被过滤掉的第二文本对象集合中的文本对象再次进行验证,此时,第二文本对象集合中,文本对象所在页面中均包含图片,在包含图片和属于该文字样式的文本对象的每一页中,可以判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象来确定该第二文本对象集合是否为图片标注信息的文本对象集合。

本实施例中,利用最小矩形区域覆盖原则对未被过滤掉的第二文本对象集合进行验证,可以进一步筛选出不能作为图片标注信息的文本对象集合的第二文本对象集合,从而提升了未被过滤掉的第二文本对象集合中的文本对象是真正意义的图片标注信息的概率。

上述步骤s207和步骤s209择一为本实施例的可选步骤。即,有效性验证可以仅包含步骤s207,或仅包含步骤s209,或包含步骤s207和步骤s209。

步骤s210,将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

在判断出包含图片与属于该文字样式的文本对象的最小矩形区域中覆盖了其他文本对象的情况下,需要将属于该文字样式的第二文本对象集合过滤掉,将该第二文本对象集合确定为非图片标注信息的文本对象集合,也就是说,进一步确定了非图片标注信息的文本对象集合,从而能够提升根据最小矩形覆盖原则对第二文本对象集合进行验证的准确性。

其中,未被过滤掉的第二文本对象集合中的文本对象即为图片标注信息,在确定了作为图片标注信息的文本对象之后,还需要将文本对象与图片关联起来,具体地,可以通过以下方法实现,此外,以下方法适用于一个图片存在一个图片标注信息的情况:

步骤s211,针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系。

图5示出了页面包含的图片和图片标注信息的示意图,这里将结合图5详细介绍如何将图片和图片标注信息准确地关联,图5中示出了两个文本对象和两个图片,例如,文本对象1和文本对象2,图片1和图片2,这里需要分别计算文本对象1与图片1、图片2之间的距离,文本对象2与图片1、图片2之间的距离,举例说明,文本对象1与图片1、图片2之间的距离分别为0.5cm、8cm,文本对象2与图片1、图片2之间的距离分别为9cm、0.5cm,并记录文本对象、图片和距离的对应关系。当然,这里仅仅是举例说明,不具有任何限定作用。

步骤s212,根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。

根据所计算得到的距离,可以确定文本对象1与图片1之间的距离最小,文本对象2与图片2之间的距离最小,因此,将文本对象1与图片1,文本对象2与图片2相关联。

在本发明实施例中,利用步骤s211和步骤s212来确定文本对象与图片的关联关系,当然还可以通过以下方法实现:

(1)将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;

(2)针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和;

(3)依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。

根据本发明上述实施例提供的方法,首先通过文字字号和最小矩形原则对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的阅读文件,提升文件的浏览量。

图3示出了根据本发明另一个实施例的文件中图片标注信息识别方法的流程示意图。如图3所示,该方法包括以下步骤:

步骤s300,对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合。

步骤s301,对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。

步骤s302,遍历文件的所有页面,查询到所有页面中包含图片的图片页面。

一般情况下,图片标注信息的文字字号往往偏小,也就是说,图片页面中可能包含非图片标注信息的文本对象,为了能够节省验证资源,并且提升文件中图片标注信息的识别速率,需要先对图片页面中的文本对象进行初步筛选,可以采用如下方法:

针对每个图片页面,根据图片页面中所有文本对象的文字字号和最小矩形覆盖原则对所有文本对象进行筛选,筛选得到至少一个第二文本对象集合,具体地,可以通过步骤s303-步骤s306实现:

步骤s303,针对每个图片页面,将图片页面中所有文本对象的文字字号与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值的文本对象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于预设字号阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合。

当然,本发明还可以仅根据文本对象的文字字号从所有文本对象中筛选出可能的图片标注信息的文本对象集合,但是为了进一步提升准确性,在根据文字字号来进行初筛后,再利用最小矩形覆盖原则对文字字号小于或等于预设字号阈值的文本对象进行验证。

步骤s304,针对每个文字字号小于或等于预设字号阈值的文本对象,判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若包含图片与文本对象的最小矩形区域中覆盖了其他文本对象,表明该文本对象不可能是图片标注信息,则执行步骤s305;若包含图片与文本对象的最小矩形区域中未覆盖其他文本对象,表明该文本对象可能是图片标注信息,则执行步骤s306。

步骤s305,将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合。

步骤s306,将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

图3所示实施例中的步骤s300-步骤s306与图2所示实施例中步骤s200-步骤s206类似,这里不再赘述。

步骤s307,针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值,若包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率大于预设阈值,表明属于该文字样式的文本对象不可能是图片标注信息,则执行步骤s308;若包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率小于或等于预设阈值,表明属于该文字样式的文本对象可能是图片标注信息,则执行步骤s309。

步骤s303-步骤s306是对单个页面中的文本对象进行有效性验证,仅是考虑在单个页面中,文本对象集合是否可能是图片标注信息的文本对象集合,由于整个文件中,其他页面中还可能存在相同文字样式的文本对象,因此,还需要从整个文件的角度判断文本对象集合是否可能是图片标注信息的文本对象集合。

举例说明,在某个图片页面中,将属于页码对应的文字样式的文本对象集合确定为第二文本对象集合,但是整个文件中,包含该文字样式的文本对象的页面大部分未包含图片,因此,可以通过判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值,其中,预设阈值可以根据实际需要进行设定,例如,预设阈值可以设为5%,包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率大于5%,则说明包含属于该文字样式的文本对象的所有页面中有5%以上未包含图片,则该文本样式的文本对象集合不可能是图片标注信息的文本对象集合;包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率小于或等于5%,则说明包含属于该文字样式的文本对象的所有页面中未包含图片的页面不足5%,则该文本样式的文本对象集合可能是图片标注信息的文本对象集合,这里预设阈值仅是举例说明,不具有任何限定作用。

步骤s308,将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

当然,本发明还可以仅判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值来确定属于该文字样式的文本对象集合是否可能是图片标注信息的文本对象集合,但是为了进一步提升准确性,再利用最小矩形覆盖原则对第二文本对象集合进行进一步地验证。

步骤s309,针对每一个第二文本对象集合,在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象,若包含图片与属于该文字样式的文本对象的最小矩形区域中覆盖了其他文本对象,表明属于该文字样式的文本对象不可能是图片标注信息,则步骤s310;若包含图片与属于该文字样式的文本对象的最小矩形区域中未覆盖其他文本对象,表明属于该文字样式的文本对象可能是图片标注信息,则执行步骤s311。

步骤s310,将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

图3所示实施例中的步骤s309-步骤s310与图2所示实施例中步骤s209-步骤s210类似,这里不再赘述。

步骤s311,将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系。

图5示出了页面包含的图片和图片标注信息的示意图,这里将结合图5详细介绍如何将图片和图片标注信息准确地关联,图5中示出了两个文本对象和两个图片,例如,文本对象1和文本对象2,图片1和图片2,将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,分别为:

组合1:图片1和文本对象1,图片2和文本对象2;

组合2:图片1和文本对象2,图片2和文本对象1;并记录组合中文本对象和图片的对应关系。

步骤s312,针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和。

针对组合1,计算图片1和文本对象1之间的距离为0.5cm,图片2和文本对象2之间的距离为0.5cm,计算组合的距离和为1cm;

针对组合2:图片1和文本对象2之间的距离为9cm,图片2和文本对象1之间的距离为8cm,计算组合的距离和为17cm。当然,这里仅仅是举例说明,不具有任何限定作用。

步骤s313,依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。

在计算组合的距离和之后,选择组合的距离和最小的组合,这里是组合1,依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。

在本发明实施例中,利用步骤s311-步骤s313来确定文本对象与图片的关联关系,当然还可以通过以下方法实现:

针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;

根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。

本实施例中,步骤s303为可选步骤。步骤s307和步骤s309择一为本实施例的可选步骤。

根据本发明上述实施例提供的方法,首先通过文字字号和最小矩形原则对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的阅读文件,提升文件的浏览量。

图6示出了根据本发明一个实施例的文件中图片标注信息识别装置的结构示意图。如图6所示,该装置包括:聚类分析模块600、过滤模块610、查询模块620、筛选模块630、验证模块640和关联模块650。

聚类分析模块600,适于对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合。

过滤模块610,适于从多个第一文本对象集合中过滤掉正文文本对象集合。

查询模块620,适于遍历文件的所有页面,查询到所有页面中包含图片的图片页面。

筛选模块630,适于针对每个图片页面,筛选得到至少一个第二文本对象集合。

验证模块640,适于针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉。

关联模块650,适于从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

根据本发明上述实施例提供的装置,先对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合,从多个第一文本对象集合中过滤掉正文文本对象集合,针对每个图片页面,筛选得到至少一个第二文本对象集合,不仅可以节省验证资源,而且还提升了文件中图片标注信息的识别速率,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,可以进一步提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的阅读文件,提升文件的浏览量。

图7示出了根据本发明另一个实施例的文件中图片标注信息识别装置的结构示意图。如图7所示,该装置包括:聚类分析模块700、过滤模块710、查询模块720、筛选模块730、验证模块740和关联模块750。

聚类分析模块700,适于对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合。

过滤模块710,适于对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。

查询模块720,适于遍历文件的所有页面,查询到所有页面中包含图片的图片页面。

筛选模块730,适于针对每个图片页面,将图片页面中所有文本对象的文字字号与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值的文本对象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于预设字号阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合;

当然,本发明还可以仅根据文本对象的文字字号筛选得到至少一个第二文本对象集合,具体地,筛选模块,适于将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。但是为了进一步提升准确性,在根据文字字号来进行筛选后,再利用最小矩形覆盖原则对文字字号小于或等于预设字号阈值的文本对象进行验证。

筛选模块730进一步适于:针对每个文字字号小于或等于预设字号阈值的文本对象,判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

当然,本发明还可以仅利用最小矩形覆盖原则筛选得到至少一个第二文本对象集合,具体地,筛选模块,适于针对每个图片页面,判断包含图片与所述文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

验证模块740,适于针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象的页面是否都包含图片;若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

当然,本发明还可以仅判断包含属于该文字样式的文本对象的页面是否都包含图片来确定属于该文字样式的文本对象是否可能是图片标注信息,但是为了进一步提升准确性,再利用最小矩形覆盖原则对第二文本对象集合进行进一步地验证。

验证模块740进一步适于:针对每一个第二文本对象集合,在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;若是,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

关联模块750进一步包括:计算单元751,适于针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;

关联单元752,适于根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。

根据本发明上述实施例提供的装置,首先通过文字字号和最小矩形原则对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的阅读文件,提升文件的浏览量。

图8示出了根据本发明另一个实施例的文件中图片标注信息识别装置的结构示意图。如图8所示,该装置包括:聚类分析模块800、过滤模块810、查询模块820、筛选模块830、验证模块840和关联模块850。

聚类分析模块800,适于对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合。

过滤模块810,适于对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。

查询模块820,适于遍历文件的所有页面,查询到所有页面中包含图片的图片页面。

筛选模块830,适于针对每个图片页面,将图片页面中所有文本对象的文字字号与预设字号阈值进行比较,得到文字字号小于或等于预设字号阈值的文本对象以及文字字号大于预设字号阈值的文本对象,并将文字字号大于预设字号阈值的文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合;

当然,本发明还可以仅根据文本对象的文字字号筛选得到至少一个第二文本对象集合,具体地,筛选模块,适于将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。但是为了进一步提升准确性,在根据文字字号来进行筛选后,再利用最小矩形覆盖原则对文字字号小于或等于预设字号阈值的文本对象进行验证。

筛选模块830进一步适于:针对每个文字字号小于或等于预设字号阈值的文本对象,判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

当然,本发明还可以仅利用最小矩形覆盖原则筛选得到至少一个第二文本对象集合,具体地,筛选模块,适于针对每个图片页面,判断包含图片与所述文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

验证模块840,适于针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

当然,本发明还可以仅判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值来确定属于该文字样式的文本对象集合是否可能是图片标注信息的文本对象集合,但是为了进一步提升准确性,再利用最小矩形覆盖原则对第二文本对象集合进行进一步地验证。

验证模块840进一步适于:针对每一个第二文本对象集合,在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;若是,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

关联模块850进一步包括:组合划分单元851,适于将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;

计算单元852,适于针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和;

关联单元853,适于依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。

根据本发明上述实施例提供的装置,首先通过文字字号和最小矩形原则对第一文本对象集合进行筛选,得到至少一个第二文本对象集合,然后对筛选得到的文本对象集合中的文本对象进行整个文件的有效性验证,通过多次验证可以准确地得到图片标注信息,从而提升图片与图片标注信息关联的准确性。利用本发明提供的技术方案,能够准确地将图片标注信息与图片关联在一起,保证关联后的文本对象能够正确地对图片进行解释和说明,而且还使得用户可以顺利的阅读文件,提升文件的浏览量。

本申请实施例提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文件中图片标注信息识别方法。

图9示出了根据本发明实施例六的一种服务器的结构示意图,本发明具体实施例并不对服务器的具体实现做限定。

如图9所示,该服务器可以包括:处理器(processor)902、通信接口(communicationsinterface)904、存储器(memory)906、以及通信总线908。

其中:

处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。

通信接口904,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器902,用于执行程序910,具体可以执行上述文件中图片标注信息识别方法实施例中的相关步骤。

具体地,程序910可以包括程序代码,该程序代码包括计算机操作指令。

处理器902可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器906,用于存放第一数据集合、第二数据集合以及程序910。存储器906可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序910具体可以用于使得处理器902执行以下操作:对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;从多个第一文本对象集合中过滤掉正文文本对象集合;遍历文件的所有页面,查询到所有页面中包含图片的图片页面;针对每个图片页面,筛选得到至少一个第二文本对象集合;针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

在一种可选的实施方式中,程序910还用于使得处理器902在针对每个图片页面,筛选得到至少一个第二文本对象集合时:针对每个图片页面,将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。

在一种可选的实施方式中,程序910还用于使得处理器902在针对每个图片页面,筛选得到至少一个第二文本对象集合时:针对每个图片页面,判断包含图片与文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

在一种可选的实施方式中,程序910还用于使得处理器902在针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉时:针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象的页面是否都包含图片;若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

在一种可选的实施方式中,程序910还用于使得处理器902在针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉时:针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

在一种可选的实施方式中,程序910还用于使得处理器902在针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉时:针对每一个第二文本对象集合,在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;若是,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

在一种可选的实施方式中,程序910还用于使得处理器902在从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系时:针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。

在一种可选的实施方式中,程序910还用于使得处理器902在从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系时:将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和;依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。

在一种可选的实施方式中,程序910还用于使得处理器902在从多个第一文本对象集合中过滤掉正文文本对象集合时:对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。

在一种可选的实施方式中,图片标注信息包括:图题和/或图注。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了:a1.一种文件中图片标注信息识别方法,包括:

对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;

从多个第一文本对象集合中过滤掉正文文本对象集合;

遍历文件的所有页面,查询到所有页面中包含图片的图片页面;

针对每个图片页面,筛选得到至少一个第二文本对象集合;

针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;

从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

a2.根据a1所述的方法,其中,所述针对每个图片页面,筛选得到至少一个第二文本对象集合进一步包括:

针对每个图片页面,将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。

a3.根据a1或a2所述的方法,其中,所述针对每个图片页面,筛选得到至少一个第二文本对象集合进一步包括:

针对每个图片页面,判断包含图片与所述文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

a4.根据a1-a3任一项所述的方法,其中,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:

针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象的页面是否都包含图片;

若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

a5.根据a1-a3任一项所述的方法,其中,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:

针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;

若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

a6.根据a1-a5任一项所述的方法,其中,针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉进一步包括:

针对每一个第二文本对象集合,在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;

若是,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

a7.根据a1-a6任一项所述的方法,其中,所述从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系进一步包括:

针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;

根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。

a8.根据a1-a6任一项所述的方法,其中,所述从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系进一步包括:

将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;

针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和;

依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。

a9.根据a1-a8任一项所述的方法,其中,所述从多个第一文本对象集合中过滤掉正文文本对象集合进一步包括:

对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。

a10.根据a1-a9任一项所述的方法,其中,所述图片标注信息包括:图题和/或图注。

本发明还公开了:b11.一种文件中图片标注信息识别装置,包括:

聚类分析模块,适于对文件中的文本对象进行文字样式聚类分析,得到具有不同文字样式的多个第一文本对象集合;

过滤模块,适于从多个第一文本对象集合中过滤掉正文文本对象集合;

查询模块,适于遍历文件的所有页面,查询到所有页面中包含图片的图片页面;

筛选模块,适于针对每个图片页面,筛选得到至少一个第二文本对象集合;

验证模块,适于针对每一个第二文本对象集合,对属于该文字样式的文本对象进行有效性验证,判断该文字样式是否是图片标注信息的文字样式,若没通过有效性验证,则将属于该文字样式的第二文本对象集合过滤掉;

关联模块,适于从未被过滤掉的第二文本对象集合中提取出文本对象,根据文本对象与图片的相对位置关系确定文本对象与图片的关联关系。

b12.根据b11所述的装置,其中,所述筛选模块进一步适于:针对每个图片页面,将图片页面中文本对象的文字字号与预设字号阈值进行比较,将文字字号小于或等于预设字号阈值的文本对象所属的文本对象集合确定为第二文本对象集合。

b13.根据b11或b12所述的装置,其中,所述筛选模块进一步适于:针对每个图片页面,判断包含图片与所述文本对象的最小矩形区域中是否覆盖了其他文本对象,若是,则将该文本对象所属的文本对象集合确定为非图片标注信息的文本对象集合,并将第一文本对象集合中除非图片标注信息的文本对象集合之外的文本对象集合确定为第二文本对象集合。

b14.根据b11-b13任一项所述的装置,其中,所述验证模块进一步适于:针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象的页面是否都包含图片;

若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

b15.根据b11-b13任一项所述的装置,其中,所述验证模块进一步适于:针对每一个第二文本对象集合,判断包含属于该文字样式的文本对象但未包含图片的页面占包含属于该文字样式的文本对象的所有页面的页面比率是否小于或等于预设阈值;

若否,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

b16.根据b11-b13任一项所述的装置,其中,所述验证模块进一步适于:针对每一个第二文本对象集合,在包含图片和属于该文字样式的文本对象的每一页中,判断包含图片与属于该文字样式的文本对象的最小矩形区域中是否覆盖了其他文本对象;

若是,则将属于该文字样式的第二文本对象集合过滤掉,并将该第二文本对象集合确定为非图片标注信息的文本对象集合。

b17.根据b11-b16任一项所述的装置,其中,所述关联模块进一步包括:

计算单元,适于针对未被过滤掉的第二文本对象集合中的文本对象,计算各个文本对象所在页面中各个文本对象和此页面中所有图片之间的距离,并记录文本对象、图片和距离的对应关系;

关联单元,适于根据计算的距离,选择距离最小的文本对象和图片,将文本对象与图片相关联。

b18.根据b11-b16任一项所述的装置,其中,所述关联模块进一步包括:

组合划分单元,适于将各个文本对象所在页面中所有文本对象和所有图片划分为多个文本对象与图片的两两组合,并记录组合中文本对象和图片的对应关系;

计算单元,适于针对每个组合,计算存在对应关系的文本对象和图片之间的距离,并计算组合的距离和;

关联单元,适于依据组合的距离和最小的组合中文本对象和图片的对应关系确定文本对象与图片的关联关系。

b19.根据b11-b18任一项所述的装置,其中,所述过滤模块进一步适于:对于每个第一文本对象集合,将文本对象的总项数与预设项数阈值进行比较,将文本对象的总项数大于预设项数阈值的第一文本对象集合过滤掉。

b20.根据b11-b19所述的装置,其中,所述图片标注信息包括:图题和/或图注。

本发明还公开了:c21.一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如a1-a10中任一项所述的文件中图片标注信息识别方法对应的操作。

本发明还公开了:d22.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如a1-a10中任一项所述的文件中图片标注信息识别方法对应的操作。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1