文件归档方法、装置、电子设备、及存储介质与流程

文档序号：18198646发布日期：2019-07-17 06:01阅读：207来源：国知局

本发明涉及数据处理技术领域，具体涉及一种文件归档方法、装置、电子设备、及存储介质。

背景技术：

现今，许多纸质文件需要存档留底，而传统纸质保存档案的方式已经不能满足现在社会的需求，并且在保存过程中衍生了一系列的保存问题。

随着科学技术的发展，现今存档主要采用录入系统的电子存档方式，但是由于诸多因素，录入系统在进行档案录入存储时无法做到完全无纸化、数据化。而且在录入过程中，系统自动化程度太低，需要操作员对录入文件进行拍照或扫描，而在拍照过程中则需要操作员逐一人工校验才能录入。

由于整个录入系统的操作步骤多为繁琐复杂的人机交互，带来的是过高的人工-时间成本和低容错率的采集过程，为了缩减人工-时间成本和提高录入的容错率，急需提高录入系统的自动化程度和准确度。

技术实现要素：

有鉴于此，本发明提供了一种文件归档方法、装置、电子设备、及存储介质，采用文字特征匹配和线性特征匹配的录入方式提高录入系统的自动化程度和准确度。

为了实现上述目的，本发明实施例提供了如下技术方案：

本发明第一方面公开的一种文件归档方法，包括：

对文件图像进行拆分，得到所述文件图像的文字区域块集合和所述文件图像的线性结构集合；其中，所述文件图像的文字区域块集合包括首行文字区域块和尾行文字区域块；

将所述文件图像的文字区域块集合中的文字和所述文件图像的线性结构集合中的线性结构，分别在档案任务库中进行匹配，得到匹配档案任务；其中，所述匹配档案任务为：在所述档案任务库中与所述文件图像的文字区域块集合中的文字相匹配的档案任务，和/或与所述文件图像的线性结构集合中的线性结构相匹配的档案任务；

将所述文件图像录入到所述匹配档案任务。

可选地，上述文件归档方法中，对文件图像进行拆分，包括：

对所述文件图像进行二值化处理，得到所述文件图像的线性结构集合以及二值化文件图像；

对所述二值化文件图像进行图像处理操作，得到处理后的文件图像，其中，所述图像处理操作包括：膨胀操作和腐蚀操作中的至少一种操作；

对处理后的文件图像截取首行文字作为所述文件图像的首行文字区域块，截取尾行文字作为所述文件图像的尾行文字区域块。

可选地，上述文件归档方法中，对所述二值化文件图像进行图像处理操作，得到处理后的文件图像之后，还包括：

若对所述处理后的文件图像未截取到首行文字区域块，则向所述处理后的文件图像截取离首行区域最近的文字作为所述首行文字区域块；

若对所述处理后的文件图像未截取到尾行文字区域块，则向所述处理后的文件图像截取离尾行区域最近的文字作为尾行文字区域块。

可选地，上述文件归档方法中，将所述文件图像的文字区域块集合中的文字在档案任务库中进行匹配，包括：

将所述文件图像的文字区域块集合中的首行文字区域块和尾行文字区域块，在所述档案任务库中分别进行首行匹配和尾行匹配；

其中，所述匹配档案任务与所述文件图像的文字区域块集合中的文字相匹配，包括：所述匹配档案任务与所述首行文字区域块和所述尾行文字区域块中的文字均相匹配。

可选地，上述文件归档方法中，将所述文件图像的文字区域块集合中的首行文字区域块和尾行文字区域块，在所述档案任务库中分别进行首行匹配和尾行匹配之后，还包括：

若在所述档案任务库中匹配到特定档案任务，将所述文件图像的文字区域块集合中的尾行文字区域块，在所述特定档案任务的文字全域中进行尾行匹配；其中，所述特定档案任务与所述文件图像的文字区域块集合中的首行文字区域块相匹配、与所述文件图像的文字区域块集合中的尾行文字区域块不匹配；

若在所述特定档案任务的文字全域，与所述文件图像的文字区域块集合中的尾行文字区域块相匹配，则将所述文件图像录入到所述特定档案任务。

可选地，上述文件归档方法中，将所述文件图像录入到所述匹配档案任务之后，还包括：

若所述文件图像的线性结构集合中的线性结构匹配到所述匹配档案任务，且所述文件图像的文字区域块集合中的文字无法匹配到所述匹配档案任务，则提取所述文件图像的文字区域块集合；

对所述文字区域块集合中的文字进行识别，得到所述文字区域块集合的文字识别结果；

利用所述档案任务库中与所述文件图像的线性结构相匹配的匹配档案任务中的文字，对所述文字识别结果进行矫正；

利用矫正后的文字识别结果更新档案任务库中的识别文字库。

可选地，上述文件归档方法中，将所述文件图像的线性结构集合中的线性结构在档案任务库中进行匹配，包括：

对所述文件图像的线性结构的线性特征进行提取，得到所述文件图像的线性结构的线性特征；

对所述文件图像的线性特征进行识别，得到线性特征的网络模型；

在所述档案任务库中对所述线性特征的网络模型进行匹配；

其中，所述匹配档案任务与所述文件图像的线性结构集合中的线性结构相匹配，包括：所述匹配档案任务与所述线性特征的网络模型相匹配。

可选地，上述文件归档方法中，对所述文件图像的线性结构的线性特征进行提取，得到所述文件图像的线性结构的线性特征，包括：

利用霍夫变换对所述文件图像的线性结构的线性特征进行提取，得到所述文件图像的霍夫变换线性特征；

对所述霍夫变换线性特征选取特征点，得到所述文件图像的特征点集合，将所述文件特征点集合作为提取得到的所述文件图像的线性结构的线性特征，其中，所述文件图像的特征点集合包括：纵向线段中点特征点集合、横向线段中点特征点集合以及线段交点特征点集合。

本发明第二方面公开了一种文件归档装置，包括：

拆分单元，用于对文件图像进行拆分，得到所述文件图像的文字区域块集合和所述文件图像的线性结构集合；其中，所述文件图像的文字区域块集合包括首行文字区域块和尾行文字区域块；

匹配单元，用于将所述文件图像的文字区域块集合中的文字和所述文件图像的线性结构集合中的线性结构，分别在档案任务库中进行匹配，得到匹配档案任务；其中，所述匹配档案任务为：在所述档案任务库中与所述文件图像的文字区域块集合中的文字相匹配的档案任务，和/或与所述文件图像的线性结构集合中的线性结构相匹配的档案任务；

第一录入单元，用于将所述文件图像录入到所述匹配档案任务。

可选地，上述文件归档装置中，所述拆分单元，包括：

二值化处理单元，用于对所述文件图像进行二值化处理，得到所述文件图像的线性结构集合以及二值化文件图像；

图像处理操作单元，用于对所述二值化文件图像进行图像处理操作，得到处理后的文件图像；其中，所述图像处理操作包括：膨胀操作和腐蚀操作中的至少一种操作；

第一截取单元，用于对处理后的文件图像截取首行文字作为文件图像的首行文字区域块，截取尾行文字作为文件图像的尾行文字区域块。

可选地，上述文件归档装置中，还包括：

第二截取单元，用于对所述处理后的文件图像未截取到首行文字区域块，则向所述处理后的文件图像截取离首行区域最近的文字作为所述首行文字区域块；

第三截取单元，用于对所述处理后的文件图像未截取到尾行文字区域块，则向所述处理后的文件图像截取离尾行区域最近的文字作为所述尾行文字区域块。

可选地，上述文件归档装置中，所述匹配单元执行将所述文件图像的文字区域块集合中的文字在档案任务库中进行匹配时，包括：

第一匹配子单元，用于将所述文件图像的文字区域块集合中的首行文字区域块和尾行文字区域块，在所述档案任务库中分别进行首行匹配和尾行匹配；

其中，所述匹配档案任务与所述文件图像的文字区域块集合中的文字相匹配，包括：与所述首行文字区域块和所述尾行文字区域块中的文字均相匹配。

可选地，上述文件归档装置中，还包括：

特定匹配单元，用于将所述文件图像的文字区域块集合中的尾行文字区域块，在所述特定档案任务的文字全域中进行所述尾行匹配；得到与所述文件图像的文字区域块集合中的尾行文字区域块相匹配特定匹配档案任务；

第二录入单元，用于将文件图像录入到特定档案任务。

可选地，上述文件归档装置中，还包括：

第一提取单元，用于若所述文件图像的线性结构集合中的线性结构匹配到所述匹配档案任务，且所述文件图像的文字区域块集合中的文字无法匹配到所述匹配档案任务，提取所述文件图像的文字区域块集合；

第一识别单元，用于对所述文字区域块集合中的文字进行识别，得到所述文字区域块集合的文字识别结果；

矫正单元，用于利用所述档案任务库中与所述文件图像的线性结构相匹配的匹配档案任务中的文字，对所述文字识别结果进行矫正；

更新单元，用于利用矫正后的文字识别结果更新档案任务库中的识别文字库。

可选地，上述文件归档装置中，所述匹配单元执行对所述文件图像的线性结构的线性特征进行提取，得到所述文件图像的线性结构的线性特征时，包括：

第二提取单元，用于对所述文件图像的线性结构的线性特征进行提取，得到所述文件图像的线性结构的线性特征；

第二识别单元，用于对所述文件图像的线性特征进行识别，得到线性特征的网络模型；

第二匹配子单元，所述第二匹配子单元用于在所述档案任务库中对所述线性特征的网络模型进行匹配，得到与所述线性特征的网络模型相匹配的所述匹配档案任务；

其中，所述匹配档案任务与所述文件图像的线性结构集合中的线性结构相匹配，包括：所述匹配档案任务与所述线性特征的网络模型相匹配。

可选地，上述文件归档装置中，所述第二提取单元，包括：

第三提取单元，用于利用霍夫变换对所述文件图像的线性结构的线性特征进行提取，得到所述文件图像的霍夫变换线性特征；

选取单元，用于对所述霍夫变换线性特征选取特征点，得到所述文件图像的特征点集合，并将所述文件特征点集合作为提取得到的所述文件图像的线性结构的线性特征；

其中，文件图像的特征点集合包括：纵向线段中点特征点集合、横向线段中点特征点集合以及线段交点特征点集合。

本发明第三方面公开了一种电子设备，包括处理器和存储器；其中：

所述存储器用于存储计算机指令；

所述处理器用于执行所述存储器存储的计算机指令，具体执行如上述任意一项所述的文件归档方法。

本发明第四方面公开了一种存储介质，用于存储程序，所述程序被执行时，用于实现如上述任意一项所述的文件归档方法。

上述方案，通过对需要进行存档的文件图像进行拆分，得到文件图像的文字区域块集合和线性结构集合，将文件图像的文字区域块集合中的文字和所述文件图像的线性结构中的线性结构，分别在档案任务库中进行匹配；得到与文件图像的文字区域块集合或文件图像的线性结构集合相匹配的匹配档案任务，然后将文件图像录入到匹配档案任务中。在文件图像的归档过程中，采用了对文件图像的文字区域块集合中的文字或者文件图像的线性结构集合中的线性结构在档案任务库中分别进行匹配，得到与文件图像的文字区域块集合中的文字和/或文件图像的线性结构集合中的线性结构相匹配的匹配档案任务的录入方式，提高了录入系统的准确率，同时也减少了人工参与校验核对的时间成本，从根本上实现了录入系统的高度自动化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种文件归档方法的流程图；

图2为本申请实施例公开的一种文件归档方法中拆分文件图像处理流程的流程图；

图3为本申请实施例公开的一种文件归档方法中拆分文件图像处理流程的示意图；

图4为本申请实施例公开的一种文件归档方法中霍夫变换旋转示意图；

图5为本申请实施例公开的一种文件归档方法中文件图像的匹配流程图；

图6为本申请实施例公开的一种文件归档方法中文字的矫正流程图；

图7为本申请实施例公开的一种文件归档方法中文字的矫正流程示意图；

图8为本申请实施例公开的一种文件归档方法中线性结构集合匹配流程图；

图9为本申请实施例公开的一种文件归档方法中文件图像匹配流程中的线性结构集合匹配流程中获取网络模型示意图；

图10为本申请实施例公开的一种文件归档方法中文件图像的线性特征提取流程图；

图11为本申请实施例公开的一种文件归档方法中文件图像的线性线性特征中特征点选取示意图；

图12为本申请实施例公开的一种文件归档装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请文件实施例公开了一种文件归档方法，参见图1，包括：

s101、对文件图像进行拆分，得到文件图像的文字区域块集合和文件图像的线性结构集合。

其中，文件图像的文字区域块集合包括首行文字区域块和尾行文字区域块。

需要说明的是，步骤s101中的文件图像是待录入归档的纸质文件的图片格式。而且在进行步骤s101之前，需要对需要进行存档的文件进行采集，把所采集到的信息录入的归档系统，得到文件图像。在录入的过程中，可以是无序的录入，录入时可以不对文件进行分类。其中，采集方式可以是扫描或者拍照以及其他可以获取文件内容的其他方式。

当得到纸质文件的图片格式的文件图像时，就对文件图像进行拆分，得到文件图像的文字区域块集合和线性结构集合。文字区域块集合是由文件图像中所有文字区域的全域构成的，其包含了文件图像的所有文字内容。文字区域块集合包括的首行文字区域块和尾行文字区域块，其中，首行文字区域块是在文字区域块集合中，以位于首行的文字构成的文字区域块，尾行文字区域块是在文字区域块集合中，以位于尾行的文字构成的文字区域块。线性结构集合是由文件图像中所有线性区域构成的，其包含了文件图像的所有线性结构。

s102、将文件图像的文字区域块集合中的文字和文件图像的线性结构集合中的线性结构，分别在档案任务库中进行匹配，得到匹配档案任务。

其中，匹配档案任务为：在档案任务库中与文件图像的文字区域块集合中的文字相匹配的档案任务，和/或与文件图像的线性结构集合中的线性结构相匹配的档案任务。

需要说明的是，步骤s102中的档案任务库包含了许多个档案任务，档案任务是：在进行文件图像匹配之前，录入系统就已经根据需要进行录入归档的文件图像，提取其文件图像的首行文字区域块、尾行文字区域块以及其文件图像的线性结构等其它图像特征，作为需要进行录入归档的文件图像的特征。并根据提取到的特征中归属于同一类型的文件图像特征的首行文字区域块和尾行文字区域块构成一个档案任务，同一类型的文件图像的线性结构构成一个档案任务。

需要进一步说明的是，当文件图像的归属类型相同时，其由首行文字区域块和尾行文字区域块构成的档案任务和线性结构构成档案任务归属于同一个档案任务。

s103、将文件图像录入到匹配档案任务。

在本实施例中，采用了对文件图像的文字区域块集合中的文字和文件图像的线性结构集合中的线性结构在档案任务库中分别进行匹配，得到与文件图像的文字区域块集合中的文字相匹配的匹配档案任务，和/或与文件图像的线性结构集合中的线性结构相匹配的匹配档案任务的方式，不仅提高了录入系统的准确率，而且也减少了人工参与校验核对的时间成本，实现了录入系统的高度自动化。

可选地，本申请的另一实施例中，步骤s101的一种实施方式，如图2所示，包括：

s201、对文件图像进行二值化处理，得到文件图像的线性结构集合以及二值化文件图像。

其中，二值化文件图像就是将文件图像经过二值化处理后得到的文件图像。二值化处理就是将文件图像上的像素点的灰度值设置为0或255，也就是将整个文件图像呈现出明显黑白效果的过程。在二值化图像内找到所有文字区域，填充所有文字区域为背景色，即可获取该文件图像的完整线性结构特征图，然后以完整线性结构特征图作为线性结构集合。

s202、对二值化文件图像进行图像处理操作，得到处理后的文件图像。其中，图像处理操作包括：膨胀操作和腐蚀操作中的至少一种操作。

对二值化图像进行图像处理操作，包括了把二值化图像在特定的阙值下进行膨胀、腐蚀操作。把二值化图像在特定的阙值下进行膨胀、腐蚀操作之后，就能消除文件图像中的线性结构，得到只含有文字区域的二值化图像。其中，进行膨胀、腐蚀操作的阙值可以根据文件图像不同设置不同的阙值。

s203、对处理后的文件图像截取首行文字作为文件图像的首行文字区域块，截取尾行文字作为文件图像的尾行文字区域块。

其中，可根据坐标方法，截取文件图像的首行标题区域或者首行文字作为首行文字区域块，截取文件图像的尾行的标题区域或者尾行文字作为尾行文字区域块。

结合以上描述，参见图3，对如何截取首行文字区域块，以一个具体的案例作进一步描述：

首先对文件图像进行二值化处理，得到二值化图像301。

对二值化图像301进行膨胀，得到第一次膨胀二值化图像302，其中，膨胀的阙值可以根据需求，自行设定。

再对第一次膨胀二值化图像302进行多次的膨胀腐蚀操作，得到多次膨胀腐蚀后的二值化图像303，其中，膨胀、腐蚀操作的次数可以根据需求进行设定，腐蚀的阙值也可以根据需求，自行设定。

对多次膨胀腐蚀后的二值化图像303截取首行标题，作为文件图像的首行文字区域块304。

可选地，为了提高文件图像的录入的准确率，在进行对文件图像进行拆分之前，可以采用霍夫变换原理预先对文件图像进行处理，校正文件图像在采集过程中偏移角度。

采用霍夫变换原理对文件图像进行处理主要分为以下几步：

根据霍夫变换原理，检验文件图像是否处于水平状态，若文件图像处于水平状态则不采用霍夫变换原理对其进行校正。

若文件图像处于非水平状态，那么根据霍夫变换原理中设定的最大置信区间的偏移角度，旋转图片达到纠偏的作用。

具体文件图像的纠偏过程，参见图4。

401为旋转前的文件图像，402为霍夫变换直线效果图，403为根据霍夫变换得到的旋转之后的文件图像。

可选地，本申请的另一实施例中，文件归档方法，还包括：

若对处理后的文件图像未截取到首行文字区域块，则向处理后的文件图像截取离首行区域最近的文字作为所述首行文字区域块。

其中，未截取到首行文字区域块的情况为，文件图像截取首行文字作为文件图像的首行文字区域块时，文件图像的首行文字不含有汉字内容，则视为处理后的文件图像未截取到首行文字区域块。这时，则向处理后的文件图像截取离首行区域最近的文字作为首行文字区域块。

需要说明的是，可以采用文字识别检测技术，判断文件图像的首行文字是否含有汉字内容，以及可以采用具有文字识别功能的其他检测技术判断文件图像的首行文字是否含有汉字内容。

若对处理后的文件图像未截取到尾行文字区域块，则向处理后的文件图像截取离尾行区域最近的文字作为尾行文字区域块。

其中，未截取到尾行文字区域块的情况为，文件图像截取尾行文字作为文件图像的尾行文字区域块时，文件图像的尾行文字不含有汉字内容，则视为处理后的文件图像未截取到尾行文字区域块。这时，则向处理后的文件图像截取离尾行区域最近的文字作为尾行文字区域块。

需要说明的是，可以采用文字识别检测技术，判断文件图像的尾行文字是否含有汉字内容，以及可以采用具有文字识别功能的其他检测技术判断文件图像的尾行文字是否含有汉字内容。

还需要说明的是，本实施例中所提到的文字识别检测可以采用ocr文字识别技术或者其它具有文字识别的检测技术对其进行文字识别检测。

可选地，本申请的另一实施例中，步骤s102中，将文件图像的文字区域块集合中的文字，在档案任务库中进行匹配的一种实施方式，如图5所示，包括：

s501、将文件图像的文字区域块集合中的首行文字区域块在档案任务库中进行首行匹配。

其中，首行匹配是指将文件图像的文字区域块集合中的首行文字区域块中的文字进行匹配的匹配。

s502、将文件图像的文字区域块集合中的尾行文字区域块在档案任务库中进行尾行匹配。

其中，尾行匹配是指将文件图像的文字区域块集合中的尾行文字区域块中的文字进行匹配的匹配。

当文件图像的文字区域块集合中的首行文字区域块的文字在档案任务库中进行首行匹配，和文件图像的文字区域块集合中的尾行文字区域块中的文字在档案任务库中进行尾行匹配之后，文件图像均满足首行匹配和满足尾行匹配时，执行步骤s503。

s503、得到档案任务库中与首行文字区域块和尾行文字区域块，均相匹配的匹配档案任务。

其中，步骤s503中得到匹配档案任务，是执行步骤s501或步骤s502后得到的。需要说明的是，步骤s501和步骤s502的执行先后顺序不影响步骤503的实现。

当文件图像的文字区域块集合中的首行文字区域块中的文字在档案任务库中进行首行匹配，和文件图像的文字区域块集合中的尾行文字区域块中的文字在档案任务库中进行尾行匹配之后，文件图像只满足首行匹配不满足尾行匹配时，执行步骤s504～s506。

s504、得到档案任务库中与首行文字区域块相匹配、且与尾行文字区域块不匹配的档案任务。

其中，步骤s504的实现，与步骤s501和步骤s502的执行先后顺序无关。

当文件图像在档案任务库中匹配到了与首行文字区域块相匹配且与尾行文字区域块不匹配的档案任务时，即文件图像匹配到了特定档案任务。

s505、将文件图像的文字区域块集合中的尾行文字区域块，在特定档案任务的文字全域中进行尾行匹配。

该特定档案任务与文件图像的文字区域块集合中的首行文字区域块相匹配、与文件图像的文字区域块集合中的尾行文字区域块不匹配。

s506、若在特定档案任务的文字全域，与文件图像的文字区域块集合中的尾行文字区域块相匹配，则将文件图像录入到特定档案任务。

需要进一步说明的是，本实施例说明了档案任务库中文件图像类型为多页场景时的匹配情况。特定档案任务为多页场景时的匹配档案任务，当文件图像在档案任务库中进行匹配时，文件图像的文字区域块集合中的首行文字区域和尾行文字区域只满足首行匹配不满足尾行匹配时，则说明文件图像不属于单页情况，应该对文件图像进行特定档案任务匹配，并在所匹配的特定档案任务中对文件图像的文字区域块集合中的尾行文字区域块在特定档案任务的文字全域中进行尾行匹配。其目的就是为了对档案任务库中不属于单页文件图像进行有序归档，按顺序对属于同一匹配档案任务但是不是单页档案任务中的文件图像进行录入。

在本实施例中步骤s501和s502的执行顺序并无先后之分，亦可同时进行，无论先执行步骤s501或步骤s502，均不影响本实施例的具体实现。

还需要说明的是，在本实施例中，描述了文件图像在执行首行匹配和尾行匹配时，文件图像的首行文字区域块中的文字满足首行匹配和尾行文字区域块中的文字满足尾行匹配时的执行方式和文件图像的首行文字区域块中的文字满足首行匹配但尾行文字区域块中的文字不满足尾行匹配时的可行方式，但是在本发明的实现过程中，首行文字区域块中的文字与尾行文字区域块中的文字中任何一个匹配到相应的匹配档案任务时，就能实现本发明所到达的目的，只是仅采用一种匹配方式匹配相应的匹配档案时，匹配的精度不高，文件图像的录入准确率降低。仅符合首行匹配或者尾行匹配中的一种匹配条件的具体实施过程与本实施例并无太大区别，在此就不再一一赘述。

可选地，本申请的另一实施例中，步骤s103、将文件图像录入到匹配档案任务之后，所述文件归档方法，如图6所示，还可以包括：

s601、若文件图像的线性结构集合中的线性结构匹配到匹配档案任务，且文件图像的文字区域块集合中的文字无法匹配到匹配档案任务，则提取文件图像的文字区域块集合。

s602、对文件图像的文字区域块集合中的文字进行识别，得到文字区域块集合的文字识别结果。

其中，可以采用ocr识别技术对文件图像的文字区域块集合中的文字进行识别，得到文字区域块集合的文字识别结果。

s603、利用档案任务库中与文件图像的线性结构相匹配的匹配档案任务中的文字对文字识别结果进行矫正。

其中，与文件图像的线性结构相匹配的匹配档案任务中的文字包含了文件图像全域的全部文字。

s604、利用矫正后的文字识别结果更新档案任务库中的识别文字库。

其中，档案任务库中的识别字库是用于收录需要进行录入归档的文件图像的文字。

在本实施例中，增加了文字训练步骤，采用总结经验的原理，以文字训练来完成系统内部的自我训练，目的就是为了相辅相成，让其匹配过程在真实应用场景中有效、可靠，同时完成在特定场景的字库语言垂直扩充。

下面通过一个具体实施方式，对本实施例进行解释说明，具体过程参见图7。

图7中的训练单元701可以理解成用于对识别文字库进行训练。具体的，该训练过程包括：

s7011、提取文件图像的文字区域块集合中的文字。

s7012、对文字区域块集合中的文字进行识别，得到文字区域块集合的文字识别结果。

s7013、利用档案任务库中与文件图像的线性结构相匹配的匹配档案任务中的标题文字对文字识别结果进行矫正。

s7014、利用矫正后的文字识别结果更新档案任务库中的识别文字库。

其中，图7中训练单元701执行的s7011～s7014的具体方式，与上述实施例中步骤s601～s604相对应，可参见上述内容，此处不再赘述。

图7中的训练示例702则通过一个示例展示上述提出的对识别文字库进行训练过程。该实例包括：

s7021、为文件图像中线性结构集合中与线性结构相匹配的匹配档案任务中线性匹配成功结果。

s7022、线性匹配成功结果的匹配档案任务的表头内容是融资融券申请表。

s7023、原始识别结果就是文件图像的首行文字区域块中的文字在进行识别时的结果。

原始结果与档案任务库中录入的识别结果具有明显差别。

s7024、原始识别结果中对文件图像的首行文字区域块中的文字识别结果为：融资融券由请表。

当得知原始识别结果相对于线性匹配成功结果时，就可以根据两者之间的不同，根据线性匹配成功结果对原始识别结果进行矫正。

s7025、把根据线性匹配成功结果矫正原始识别结果的原始结果录入识别文字库，以便提高下次进行首行文字区域中文字识别的识别率。

增加文字训练步骤的主要目的在于，在一些外界因素的影响下，文件图像的识别结果并不准确，那么就需要在文件图像中的线性结构匹配成功的情况下，取出文件图像的首行文字区域块中的文字，利用文件图像中的线性结构匹配成功匹配到的匹配档案任务中的信息对识别结果进行矫正，然后根据矫正的结果更新、优化识别文字库，使系统可以在一个特定的环境下，循环更新、优化识别字库，使其在特定应用场景内的汉字语言领域，有针对性的提高识别率。其中，除了取出文件图像的首行文字区域块中的文字，还可以取出文件图像全域中的文字，与线性结构匹配成功匹配到的匹配档案任务中的信息进行对比并矫正。

可选地，本申请的另一实施例中，步骤s102中，将文件图像的线性结构集合中的线性结构，在档案任务库中进行匹配，得到匹配档案任务的一种实施方式，如图8所示，包括：

s801、对文件图像的线性结构的线性特征进行提取，得到文件图像的线性结构的线性特征。

需要说明的是，可以采用霍夫变换的方式对文件图像的线性结构特征进行提取，然后对所提取到的特征进行主成份分析得到文件图像的线性结构的线性特征。

s802、对文件图像的线性特征进行识别，得到线性特征的网络模型。

需要说明的是，对文件图像的线性特征进行识别，具体采用综合识别的方式，对所获得的文件图像的线性结构的线性特征的层次特征进行逐一分类识别，得到线性特征的网络模型。

其中，归属不同档案任务的文件图像所对应的线性特征的网络模型并不相同。故可以采用线性特征的网络模型作为匹配条件匹配对应的匹配档案任务。

s803、在档案任务库中对线性特征的网络模型进行匹配。

其中，匹配档案任务与文件图像的线性结构集合中的线性结构相匹配，包括：匹配档案任务与线性特征的网络模型相匹配。

在本实施例中，通过利用线性构集合中的线性特征构建网络模型进行匹配的方式，采用此方式对文件图像进行录入，不仅提高了录入系统的准确率，而且也减少了人工参与校验核对的时间成本，实现了录入系统的高度自动化。

下面通过一个实施例，对步骤s802构建网络模型进行解释说明，具体过程参见图9。

s901、对文件图像的线性结构集合中的线性结构中的线性特征进行降噪处理，得到文件图像的线性结构集合中的直线数量、线段集合特征、交点集合特征。

需要说明的是，直线数量为线性结构集合中所有直线的数量，线段集合特征为线性结构集合中所有线段的特征，交点集合特征为线性结构集合中所有交点的特征。

s902、根据文件图像的直线数量中的数量值进行分类构建直线网络模型。

具体的，可以根据直线数量中的数量值大小，或者直线数量的数量值区间构建直线网络模型。例如，当直线数量的数量值为10条～20条的区间时，划分为第一类，其他区间时划分为第二类。以此类推，可以设置不同的区间，构建不同的直线网络模型。

s903、根据文件图像的线段特征集合中的线段集合特征进行分类构建线段集合网络模型。

具体的，根据线段特征集合中的线段特征之间的欧式距离的数值大小，进行分类构建线段集合网络模型。

s904、根据文件图像的交点特征集合中的交点集合特征进行分类构建交点集合网络模型。

具体的，根据交点特征集合中的交点特征之间的欧式距离的数值的大小，进行分类构建交点集合网络模型。

通过上述步骤s901～s904，可以构建得到文件图像的线性特征的网络模型，并可以利用所构建的网络模型，对文件图像进行线性特征的匹配。采用此方式对文件图像进行录入归档，不仅提高了录入系统的准确率，而且也减少了人工参与校验核对的时间成本，实现了录入系统的高度自动化。

需要说明的是，在本实施例中步骤s902和s904的执行顺序并无先后之分，亦可同时进行，无论先执行步骤s902或步骤s903亦或s904，均不影响本实施例的具体实现。

可选地，本申请的另一实施例中，在步骤s801中，对文件图像的线性结构的线性特征进行提取，得到文件图像的线性结构的线性特征的一种具体实施方式为：

s1001、利用霍夫变换对所述文件图像的线性结构的线性特征进行提取，得到所述文件图像的霍夫变换线性特征。

其中，可以根据文件图像的线性结构特征图，采用霍夫变换的方式，对文件图像的线性结构特征图进行特征提取，并转换成向量数据信息，得到文件图像的霍夫变换线性特征。

需要说明的是，文件图像的线性结构特征图是采用二值化的处理方法，在文字图像内找到所有的文字区域，填充文字区域为背景色得到的。霍夫变换线性特征涵盖了利用霍夫变换的方式所获得的在文件图像中的所有线性特征。

s1002、对霍夫变换线性特征选取特征点，得到文件图像的特征点集合，并将文件特征点集合作为提取得到的所述文件图像的线性结构的线性特征。

其中，文件图像的特征点集合包括：纵向线段中点特征点集合、横向线段中点特征点集合以及线段交点特征点集合。

需要说明的是，可以采用主成份分析的方法，选取霍夫变换后的线性特征中最能反映文件图像的线性特征的特征点作为文件图像的特征点集合。

还需要进一步说明的是，选取文件图像的线性特征中最能反映文件图像的线性特征的特征点的数量不做限定，可以根据用户需求自行设定。当然选取数量越多的特征点作为文件图像的特征点，文件图像匹配程度越高，自然录入归档的准确率也就更高，但同时也意味着进行分析计算的过程越趋于繁琐和复杂。

下面对经过霍夫变换方式以及主成份分析的方法后所获得到文件图像的线性结构的线性特征进行参数计算，计算结果直接反映了文件图像的线性结构集合中的线性结构在档案任务库中进行匹配得到匹配档案任务的准确率情况。

其中，首先采用霍夫变换的方式，得到文件图像的线性结构的线性特征，继而采用主成份分析的方法，选取文件图像的线性特征中的最能反映文件图像的线性特征的特征点集合作为提取得到文件图像的线性特征，并把提取得到的线性特征转换成向量数据信息，其转换成的向量数据信息可作为匹配的重要参考系数。

根据上述方法所获得的线性特征之间的数学关系，可总结得到以下公式：

s＝{α·n+β·a+γ·b+δ·c}

公式中的n代表检测得到的有效直线总数，a特指纵向线段中点特征点集合，b特指横向线段中点特征点集合，c特指线段交点特征点集合。

纵向线段中点特征点集合a是：根据文件图像的线性结构的线性特征中所有的纵向线段中点的欧几里得距离关系作主成份分析选取得到的。

横向线段中点特征点集合b是：根据文件图像的线性结构的线性特征中所有的横向线段中点的欧几里得距离关系作主成份分析选取得到的。

线段交点特征点集合c是：根据文件图像的线性结构的线性特征中的线段交点的欧几里得距离关系作主成份分析选取得到的。线段交点是文件图像中最能反映出文本格式的特征参数，其中，交点的数目和坐标关系都是重要参数。

公式中的α、β、γ、δ代表权重系数。具体的α代表有效直线总数的权重系数，β代表纵向线段中点特征点集合a的权重系数，γ代表横向线段中点特征点集合b的权重系数，δ代表线段交点特征点集合c的权重系数。

还需要进一步说明的是，在上述线性特征的计算过程中，除了有效直线总数n，其它特征参数均由线段特征来表示，其中代表点的线段特征，采用欧式距离进行解析。

对于上述公式s＝{α·n+β·a+γ·b+δ·c}中的a、b、c分别代表的线段特征点集合，其还可采用矩阵的表示方式，其中采用矩阵的表示方式如下：

在本实施例中，详细介绍了如何获取文件图像的线性特征的方法，其中，通过对文件图像的线性特征选取特征点进行欧几里得距离的计算，不仅减少了计算数量，而且从特征点的选取方式上可以保证对文件图像在线性匹配时的准确率，减少了不必要的计算成本和不切实际数量的计算浪费。本实施例中主要针对文件图像样本较大的情况采用的录入方法，针对文件图像样本数量，选取特征点，采用选取特征点的匹配方式，可以提高系统录入的效率。

下面通过一个具体实施方式来描述实施例的具体实现：

根据步骤s1001得到的文件图像的线性结构的线性特征，对文件图像的线性结构的线性特征选取，选取方式可以采用“回”字特征选取法，选取文件图像的线性结构的最外侧左上、左下、右上、右下的线段交点作为特征点集合ⅰ，然后再选取次外侧的同样四个点作为特征点集合ⅱ。选取特征点的结果参见图11。

结合图11，可知，最外侧的p1(x1,y1)、p2(x2,y2)、p3(x3,y3)、p4(x4,y4)和次外侧的q1(x1,y1)、q2(x2,y2)、q3(x3,y3)、q4(x4,y4)集合构成了样本较少的情况下，特征点集合，那么只要计算这8个点坐标的欧式距离然后与档案任务库进行匹配即可。

如果文件图像样本数量庞大，需要录入的文件表单样式几千、几万的情况下。可以增加特征点集合的数量。当数量较大时，可以采取引入pca算法方式，即主成份分析方法，在二维平面计算特征向量，以提高文件图像的录入准确率以及减少了人工参与校验核对的时间成本，实现录入系统的高度自动化。

综上所述，本发明提供的一种文件图像归档方法，采用了文字区域块集合中文字进行匹配的方式和线性特征进行匹配的方式对文件图像进行匹配，然后归档录入匹配档案任务，采用上述两种方式得到的匹配准确率公式如下：

其中s^t表示ocr文字识别中的表头的特征值，ω表示各自的权重系数。在该种模式下可以大幅度提高匹配分类的准确度，节省时间成本，从根本上实现了录入系统的高度自动化。

通过上述方法，采用了对文件图像的文字区域块集合中的文字和文件图像的线性结构集合中的线性结构在档案任务库中分别进行匹配，得到与文件图像的文字区域块集合中的文字相匹配的匹配档案任务，和/或与文件图像的线性结构集合中的线性结构相匹配的匹配档案任务的方式，不仅提高了录入系统的准确率，而且也减少了人工参与校验核对的时间成本，实现了录入系统的高度自动化。

本发明另一实施例还公开了一种文件归档装置，如图12所示，包括：

拆分单元1201，用于对文件图像进行拆分，得到文件图像的文字区域块集合和文件图像的线性结构集合。

其中，文件图像的文字区域块集合包括首行文字区域块和尾行文字区域块。

匹配单元1202，用于将文件图像的文字区域块集合中的文字和文件图像的线性结构集合中的线性结构，分别在档案任务库中进行匹配，得到匹配档案任务。

第一录入单元1203，用于将文件图像录入到匹配档案任务。

在本实施例公开的文件归档装置中，采用了匹配单元1202对拆分单元1201拆分到的文件图像的文字区域块集合中的文字和文件图像的线性结构集合中的线性结构，在档案任务库中分别进行匹配，得到与文件图像的文字区域块集合中的文字相匹配的匹配档案任务，和/或与文件图像的线性结构集合中的线性结构相匹配的匹配档案任务，并在录入单元1203中根据文件图像匹配到的匹配档案任务库对文件图像进行录入的方式。不仅提高了录入系统的准确率，而且也减少了人工参与校验核对的时间成本，实现了录入系统的高度自动化。

本实施例中公开的各个单元的具体工作过程，可参见对应图1的方法实施例的内容，此处不再赘述。

可选地，本申请的另一实施例中，拆分单元，包括：

二值化处理单元，用于对文件图像进行二值化处理，得到文件图像的线性结构集合以及二值化文件图像。

图像处理操作单元，用于对二值化文件图像进行图像处理操作，得到处理后的文件图像。

其中，图像处理操作包括：膨胀操作和腐蚀操作中的至少一种操作。

第一截取单元，用于对处理后的文件图像截取首行文字作为文件图像的首行文字区域块，截取尾行文字作为文件图像的尾行文字区域块。