报表提取方法、装置、存储介质及电子设备与流程

文档序号:16918648发布日期:2019-02-19 19:10阅读:219来源:国知局
报表提取方法、装置、存储介质及电子设备与流程

本公开涉及数据处理技术领域,具体地,涉及一种报表提取方法、装置、存储介质及电子设备。



背景技术:

报表就是用表格、图标等格式来动态显示数据,其可以对事件进行初步统计的表格,形象地展示事件的相关信息。在日常工作中通常需要用到大量的报表,而每一张报表往往具有不同的类别,难以进行统一检索。

现有技术中,为了便于所有报表的统一检索,通常需要人工对每一张报表的主题、统计指标、单位和维度等不同数据类型的区域进行标记,根据各张报表的不同数据类型区域对报表进行分类提取,该方法效率低、准确率难以得到保证。



技术实现要素:

为了克服现有技术中存在的问题,本公开提供一种报表提取方法、装置、存储介质及电子设备。

为了实现上述目的,本公开提供一种报表提取方法,包括:

根据预设的不同数据类型的数据库,对目标报表进行标记,得到所述目标报表的各个区域以及每一区域的数据类型标识,其中,所述目标报表为待提取的报表集合中的任一报表;

以所述目标报表中具有不同数据类型标识的各个区域之间的相对位置关系为基准,将所述报表集合中其他报表与所述目标报表进行区域相对位置的比对,得到对比结果;

根据所述比对结果从所述报表集合中提取出与所述目标报表的区域相对位置关系相匹配的报表。

可选地,所述根据预设的不同数据类型的数据库,对目标报表进行标记,得到所述目标报表的各个区域以及每一区域的数据类型标识,包括:

根据预设的不同数据类型的数据库,针对所述目标报表的每一区域,查询该区域的元素所属的数据库,并将该数据库预设的数据类型作为该区域的数据类型标识。

可选地,所述以所述目标报表中具有不同数据类型标识的各个区域之间的相对位置关系为基准,将所述报表集合中其他报表与所述目标报表进行区域相对位置的比对,包括:

按照所述目标报表的区域相对位置关系,对所述报表集合中其他任一报表进行区域依次划分,并且,在每划分得到一区域后,判断该区域与所述目标报表相同位置的区域是否属于相同的数据类型。

可选地,所述方法还包括:

若对所述任一报表新划分得到的区域与所述目标报表中相同位置的区域的数据类型不同,则停止对所述任一报表划分区域;

若对所述任一报表新划分得到的区域与该目标报表中相同位置的区域的数据类型相同,则继续对所述任一报表划分下一区域;

所述根据所述比对结果从所述报表集合中提取出与所述目标报表的区域相对位置关系相匹配的报表包括:

根据所述比对结果,从所述报表集合中提取出与所述目标报表区域相对位置关系相同的报表。

可选地,所述以所述目标报表中具有不同数据类型标识的各个区域之间的相对位置关系为基准,将所述报表集合中其他报表与所述目标报表进行区域相对位置的比对,包括:

按照所述目标报表的区域相对位置关系,对所述报表集合中其他任一报表进行区域划分;

在得到所述任一报表的区域后,比对所述任一报表中每一区域的数据类型与所述目标报表中相同位置的区域的数据类型是否相同,得到比对结果;

所述根据所述比对结果从所述报表集合中提取出与所述目标报表的区域相对位置关系相匹配的报表,包括:

根据所述比对结果确定所述其他报表与所述目标报表的匹配度;

提取所述报表集合中与所述目标报表的匹配度达到阈值的报表。

可选地,在所述根据预设的不同数据类型的数据库,对目标报表进行标记后,所述方法还包括:

针对每一所述区域,查询该区域中是否有不存在于该区域所属的数据类型的数据库中的元素;

若该区域有不存在于该数据库的元素,则使用该元素更新该数据库。

本公开还提供一种报表提取装置,包括:

标记模块,被配置为根据预设的不同数据类型的数据库,对目标报表进行标记,得到所述目标报表的各个区域以及每一区域的数据类型标识,其中,所述目标报表为待提取的报表集合中的任一报表;

比对模块,被配置为以所述目标报表中具有不同数据类型标识的各个区域之间的相对位置关系为基准,将所述报表集合中其他报表与所述目标报表进行区域相对位置的比对,得到比对结果;

提取模块,被配置为根据所述比对结果从所述报表集合中提取出与所述目标报表的区域相对位置关系相匹配的报表。

可选地,所述标记模块包括:

标记子模块,被配置为根据预设的不同数据类型的数据库,针对所述目标报表的每一区域,查询该区域的元素所属的数据库,并将该数据库预设的数据类型作为该区域的数据类型标识。

可选地,所述比对模块包括:

第一比对子模块,被配置为按照所述目标报表的区域相对位置关系,对所述报表集合中其他任一报表进行区域依次划分,并且,在每划分得到一区域后,判断该区域与所述目标报表相同位置的区域是否属于相同的数据类型。

可选地,所述装置还包括:

第一划分模块,被配置为在对所述任一报表新划分得到的区域与所述目标报表中相同位置的区域的数据类型不同时,则停止对所述任一报表划分区域;

第二划分模块,被配置为在对所述任一报表新划分得到的区域与该目标报表中相同位置的区域的数据类型相同时,则继续对所述任一报表划分下一区域;

所述提取模块包括:

第一提取子模块,被配置为根据所述比对结果,从所述报表集合中提取出与所述目标报表区域相对位置关系相同的报表。

可选地,所述比对模块包括:

第三划分子模块,被配置为按照所述目标报表的区域相对位置关系,对所述报表集合中其他任一报表进行区域划分;

第二比对子模块,被配置为在得到所述任一报表的区域后,比对所述任一报表中每一区域的数据类型与所述目标报表中相同位置的区域的数据类型是否相同,得到比对结果;

所述提取模块包括:

匹配度确定子模块,被配置为根据所述比对结果确定所述其他报表与所述目标报表的匹配度;

第二提取子模块,被配置为提取所述报表集合中与所述目标报表的匹配度达到阈值的报表。

可选地,所述装置还包括:

查询模块,被配置为在根据预设的不同数据类型的数据库对目标报表进行标记后,针对每一所述区域,查询该区域中是否有不存在于该区域所属的数据类型的数据库中的元素;

更新模块,被配置为在该区域有不存在于该数据库的元素时,则使用该元素更新该数据库。

本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开提供的报表提取方法的步骤。

本公开还提供一种电子设备,包括:

存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现本公开提供的报表提取方法的步骤。

上述技术方案根据预设的不同数据类型的数据库对目标报表进行标记,得到目标报表的各个区域以及每一区域的数据类型标识,并以目标报表中具有不同数据类型标识的各个区域之间的相对位置关系为基准,将报表集合中其他报表与目标报表进行区域相对位置的比对,以根据比对结果从报表集合中提取出与目标报表的区域相对为位置关系相匹配的报表。这样,实现了基于数据库对报表进行自动区域划分,进而实现对报表的分类提取,相比于现有技术中通过人工标记每一张报表的不同数据类型区域来对各报表进行分类提取,提高了效率和准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1是根据本公开一示例性实施例示出的一种报表提取方法的流程图;

图2是根据本公开一示例性实施例示出的一种标记后的目标报表示意图;

图3是根据本公开另一示例性实施例示出的一种标记后的目标报表示意图;

图4是根据本公开一示例性实施例示出的一种报表集合中任一报表经划分后的示意图;

图5是根据本公开一示例性实施例示出的一种与图2所示的目标报表的区域相对位置关系相匹配的报表的示意图;

图6是根据本公开一示例性实施例示出的一种与图3所示的目标报表的区域相对位置关系相匹配的报表的示意图;

图7是根据本公开另一示例性实施例示出的一种报表提取方法的流程图;

图8是根据本公开一示例性实施例示出的一种报表提取装置的框图;

图9是根据本公开另一示例性实施例示出的一种报表提取装置的框图;

图10是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

需要说明的是,本公开的说明书和权利要求书以及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必理解为特定的顺序或先后次序。

另外,在本公开中,在未作相反说明的情况下,使用的方位词如“上、下、左、右”通常是指相应附图中所标记出的上、下、左、右。

报表通常分为标题、副标题、表头和数据区等部分,各部分又可以根据其各元素的数据类型的不同划分为不同的区域,其中,数据类型可以包括主题、单位、统计指标以及维度等。

为了使本领域的技术人员更容易理解本公开实施例的技术方案,对报表的相关术语进行简单介绍。

数据区:连续的数值区域,通常位于报表的中间位置。

表头:事件的简况反映,通常位于数据区的左侧和上侧位置且包括至少一行和/或一列元素。

标题:通常位于报表的最上侧位置。

副标题:通常位于标题和表头之间。

主题:用于概括描述报表的内容,通常来自于报表的标题。

单位:测量某个物理量时用于进行比较的标准量,与统计指标共同描述某一数据的含义,例如元、万元、户、头等,其通常来自于报表的表头和/或副标题。

统计指标:是指量化衡量的标准,用于衡量事物发展程度的单位或方法,例如面积、人口、密度、产量等,一个统计指标对应一个单位,其通常来自于报表的表头。

维度:是指数据的属性或者事物或现象的某种特征,例如性别、地区、时间等,其通常来自于报表的表头。

图1是根据本公开一示例性实施例示出的一种报表提取方法的流程图,如图1所示,该方法包括以下步骤:

在步骤s101中,根据预设的不同数据类型的数据库,对目标报表进行标记,得到目标报表的各个区域以及每一区域的数据类型标识,其中,目标报表为待提取的报表集合中的任一报表。

在本公开的实施例中,不同数据类型的数据库包括但不限于:统计指标的数据库,其存储有数据的度量标准,例如面积、人口、密度、产量等;维度数据库,其存储有数据的属性,包括用于描述行政区域的属性(如南京、无锡)、用于描述时间的属性(如2012年、2013年)以及用于描述类别的属性(如谷物、薯类、低收入户、中收入户)等;单位数据库,其存储有常用的单位,例如元、万元、户、万户、头等。与之相对应的,基于上述数据库对报表区域进行标记得到的数据类型标识可以包括:主题、数据区、统计指标、维度以及单位等等。

在一种实施方式中,可以根据报表的标题、副标题、表头和数据区之间的相对位置关系以及主题、数据区、统计指标、维度以及单位等不同数据类型的区域的分布规律将目标报表拆分为多个区域并分别对每一区域进行标记。示例地,可以将连续的数值区域的数据类型标记为数据区,将目标报表的最上侧的区域的数据类型标记为主题。对于目标报表的其他任一区域,可以根据预设的不同数据类型的数据库,查找该区域的元素所属的数据库并将该数据库预设的数据类型作为该区域的数据类型标识。

例如,以图2所示的目标报表100示意,可以首先将该目标报表100划分为多个区域110~180,将连续的数值区域110和120标记为数据区,将区域180标记为主题。接着,对于其余的区域130~170,经查询,区域130和140中的元素属于维度的数据库,区域150和区域170中的元素属于单位的数据库,区域160中的元素属于统计指标的数据库,则将区域130和140的数据类型标记为维度,将区域150和170的数据类型标记为单位以及将区域160的数据类型标记为统计指标。

值得说明的是,图2仅示意了一种对目标报表划分区域的方式,在该实施方式中,可以采用其他各种方式对目标报表划分区域,本公开实施例对此不做限定。

在另一种实施方式中,首先可以识别出目标报表的标题和连续的数值区域,将标题标记为主题并将连续的数值区域的数据类型标记为数据区。接着,对于目标报表中的其余任一元素,查询该元素所属的数据库,将该数据库预设的数据类型作为该元素的数据类型标识,并将相同数据类型标识的元素划分为一个区域,由此标记出目标报表的主题、统计指标、维度、单位以及数据区等。

例如,以图3所示的目标报表200示意,首先将该目标报表200的标题(即区域250)标记为主题,将目标报表中连续的数值区域210的数据类型标记为数据区,对于目标报表200中的其余任一元素,经查询,与数据区210相邻的左侧各元素均属于单位的数据库,则将这些元素划分为一个区域220并将单位作为该区域220的数据类型标识。同样地,根据查询结果,将与区域220相邻的左侧各元素划分为一个区域230并将统计指标作为该区域230的数据类型标识,将与数据区210相邻的上侧的各元素划分为一个区域240并将维度作为该区域240的数据类型标识。

值得说明的是,本公开实施例中,一张报表可以位于一张电子表格中;报表集合中的所有报表也可以位于同一张电子表格中。对于后者,由于在电子表格中,报表与报表之间通常用空白单元格分开,因而可以基于此将该电子表格中的不同报表进行区分。

在步骤s102中,以目标报表中具有不同数据类型标识的各个区域之间的相对位置关系为基准,将报表集合中其他报表与目标报表进行区域相对位置的比对,得到比对结果。

在步骤s103中,根据比对结果从报表集合中提取出与目标报表的区域相对位置相匹配的报表。

在第一种实施方式中,可以按照目标报表的区域相对位置关系,对报表集合中其他任一报表进行区域划分,在得到任一报表的区域后,比对任一报表中每一区域的数据类型与目标报表中相同位置的区域的数据类型是否相同,得到比对结果。其中,对于任一报表中的每一区域,可以查询该区域的元素是否属于目标报表中相同位置区域的数据类型的数据库,若该区域中有超过预设比例的元素属于该数据库,则认为该区域与目标报表中相同位置的区域的数据类型相同。

例如,如图4所示,以图2所示的报表100作为目标报表,可根据该目标报表100的各区域相对位置关系对报表310划分区域,得到区域311~318。可以首先将区域318的数据类型标记为主题;接着,若区域311和312为连续的数值区域,则可判定区域311与目标报表的区域110的数据类型相同且区域312与区域120的数据类型相同;对于区域313,若查询到该区域313的元素存在于维度的数据库中,则可判定该区域313与目标报表100的区域130的数据类型相同。同样地,可以判定区域315~317与目标报表100中相同位置的区域的数据类型相同。

相应地,根据比对结果可以确定报表集合中其他报表与目标报表的匹配度,并提取报表集合中与目标报表的匹配度达到阈值的报表。其中,报表集合中其他任一报表与目标报表的匹配度可以根据任一报表中与目标报表中相同位置区域的数据类型相同的区域的数量与该报表的区域的总数之间的比例确定。

例如,如图5所示,以图2所示的报表100作为目标报表,可以从报表集合中提取出与该目标报表100的区域相对位置关系相匹配的报表320~350;如图6所示,以图3所示的报表200作为目标报表,可以从报表集合中提取出与该目标报表200的区域相对位置关系相匹配的报表360~380。

在第二种实施方式中,在将报表集合中其他报表与目标报表进行区域相对位置的比对时,可以按照目标报表的区域相对位置关系,对报表集合中其他任一报表进行区域依次划分,并且在每划分得到一区域后,判断该区域与目标报表相同位置的区域是否属于相同的数据类型。若对所述任一报表新划分得到的区域与目标报表中相同位置的区域的数据类型不同,则停止对该报表划分区域;若对所述任一报表新划分得到的区域与该目标报表中相同位置的区域的数据类型相同,则继续对所述任一报表划分下一区域。相应地,根据比对结果,可以从报表集合中提取出与目标报表的区域相对位置相同的报表。对于该种实施方式,对于与目标报表区域相对位置不完全相同的报表,不会对该报表划分全部区域,进一步提高了报表分类提取的效率。

在本公开的另一示例性实施例中,如图7所示,在根据预设的不同数据类型的数据库对目标报表进行标记后,还可以针对目标报表的每一区域,查询该区域中是否有不存在于该区域所属的数据类型的数据库中的元素,若该区域有不能在于该数据库中的元素,则可以使用该元素更新该数据库。

另外,在从报表集合中提取出与目标报表的区域相对位置关系相匹配的报表后,对于报表集合中的剩余报表,可以从其中选择其中一报表作为新的目标报表,重复图1所示的报表提取方法进行新一轮的报表提取。

可选地,基于上述第一种实施方式,可以根据剩余报表中每一报表与目标报表的匹配度,将与目标报表的匹配度最高的报表作为新的目标报表。相应地,在重复图1所示的报表提取方法进行下一轮的报表提取时,可以保留该新的目标报表中已标记数据类型的区域(即与上一轮的目标报表中相同位置区域的数据类型相同的区域),根据预设的不同数据类型的数据库对该新的目标报表中的未标记区域(即与上一轮的目标报表中相同位置区域的数据类型不相同的区域)进行标记。

可选地,基于上述第二种实施方式,可以将剩余报表中划分得到的区域数量最多的报表作为新的目标报表。相应地,在重复图1所示的报表提取方法进行下一轮的报表提取时,可以保留该新目标报表中与上一轮目标报表中相同位置区域的数据类型相同的区域,根据预设的不同数据类型的数据库对该新目标报表中的其他区域进行标记。

通过本公开实施例所示的报表提取方法,可以实现基于数据库对报表进行自动区域划分,进而实现对报表的分类提取,相比于现有技术中通过人工标记每一张报表的不同数据类型区域来对各报表进行分类提取,可以提高效率和准确率。

图8是根据本公开一示例性实施例示出的一种报表提取装置的框图,如图8所示,该装置700包括:标记模块701、比对模块702和提取模块703。

标记模块701被配置为根据预设的不同数据类型的数据库,对目标报表进行标记,得到所述目标报表的各个区域以及每一区域的数据类型标识,其中,所述目标报表为待提取的报表集合中的任一报表;

比对模块702被配置为以所述目标报表中具有不同数据类型标识的各个区域之间的相对位置关系为基准,将所述报表集合中其他报表与所述目标报表进行区域相对位置的比对,得到比对结果;

提取模块703被配置为根据所述比对结果从所述报表集合中提取出与所述目标报表的区域相对位置关系相匹配的报表。

在另一个实施例中,如图9所示,所述标记模块701包括:

标记子模块711,被配置为根据预设的不同数据类型的数据库,针对所述目标报表的每一区域,查询该区域的元素所属的数据库,并将该数据库预设的数据类型作为该区域的数据类型标识。

在另一个实施例中,如图9所示,所述比对模块702包括:

第一比对子模块721,被配置为按照所述目标报表的区域相对位置关系,对所述报表集合中其他任一报表进行区域依次划分,并且,在每划分得到一区域后,判断该区域与所述目标报表相同位置的区域是否属于相同的数据类型。

在另一个实施例中,如图9所示,所述装置700还包括:

第一划分模块704,被配置为在对所述任一报表新划分得到的区域与所述目标报表中相同位置的区域的数据类型不同时,则停止对所述任一报表划分区域;

第二划分模块705,被配置为在对所述任一报表新划分得到的区域与该目标报表中相同位置的区域的数据类型相同时,则继续对所述任一报表划分下一区域;

所述提取模块703包括:

第一提取子模块731,被配置为根据所述比对结果,从所述报表集合中提取出与所述目标报表区域相对位置关系相同的报表。

在另一个实施例中,如图9所示,所述比对模块702包括:

划分子模块722,被配置为按照所述目标报表的区域相对位置关系,对所述报表集合中其他任一报表进行区域划分;

第二比对子模块723,被配置为在得到所述任一报表的区域后,比对所述任一报表中每一区域的数据类型与所述目标报表中相同位置的区域的数据类型是否相同,得到比对结果;

所述提取模块703包括:

匹配度确定子模块732,被配置为根据所述比对结果确定所述其他报表与所述目标报表的匹配度;

第二提取子模块733,被配置为提取所述报表集合中与所述目标报表的匹配度达到阈值的报表。

在另一个实施例中,如图9所示,所述装置700还包括:

查询模块706,被配置为在根据预设的不同数据类型的数据库对目标报表进行标记后,针对每一所述区域,查询该区域中是否有不存在于该区域所属的数据类型的数据库中的元素;

更新模块707,被配置为在该区域有不存在于该数据库的元素时,则使用该元素更新该数据库。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

通过本公开实施例所述的报表提取装置,可以实现基于数据库对报表进行自动区域划分,进而实现对报表的分类提取,相比于现有技术通过人工标记每一张报表的不同数据类型区域来对各报表进行分类提取,可以提高效率和准确率。

图10是根据一示例性实施例示出的一种电子设备900的框图。如图10所示,该电子设备900可以包括:处理器901,存储器902。该电子设备900还可以包括多媒体组件903,输入/输出(i/o)接口904,以及通信组件905中的一者或多者。

其中,处理器901用于控制该电子设备900的整体操作,以完成上述的报表提取方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该电子设备900的操作,这些数据例如可以包括用于在该电子设备900上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammableread-onlymemory,简称eprom),可编程只读存储器(programmableread-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件903可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口904为处理器901和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(nearfieldcommunication,简称nfc),2g、3g或4g,或它们中的一种或几种的组合,因此相应的该通信组件905可以包括:wi-fi模块,蓝牙模块,nfc模块。

在一示例性实施例中,电子设备900可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit,简称asic)、数字信号处理器(digitalsignalprocessor,简称dsp)、数字信号处理设备(digitalsignalprocessingdevice,简称dspd)、可编程逻辑器件(programmablelogicdevice,简称pld)、现场可编程门阵列(fieldprogrammablegatearray,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的报表提取方法。

在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的报表提取方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器902,上述程序指令可由电子设备900的处理器901执行以完成上述的报表提取方法。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1