基于文件表格的自动识别导入方法与流程

文档序号:37907594发布日期:2024-05-09 21:56阅读:21来源:国知局
基于文件表格的自动识别导入方法与流程

本发明涉及表格识别,具体为基于文件表格的自动识别导入方法。


背景技术:

1、电子表格,又称电子数据表,是一类模拟纸上计算表格的计算机程序。它会显示由一系列行与列构成的网格;单元格内可以存放数值、计算式、或文本。电子表格通常用于财务信息,因为它能够频繁的重新计算整个表格。

2、针对于目前所出现的大量账单相关文件,将其录入相关的文件表格时,需耗费大量的人力物力,且在录入过程中还容易出错,并未识别对应账单内部的特征内容,并将特征内容与对应的特征项进行匹配,完成一组自行录入的过程,从而减少工作人员的相关工作负担,提升对应账单的录入效率。


技术实现思路

1、针对现有技术的不足,本发明提供了基于文件表格的自动识别导入方法,解决了未识别对应账单内部的特征内容并录入至表格的问题。

2、为实现以上目的,本发明通过以下技术方案予以实现:基于文件表格的自动识别导入方法,包括以下步骤:

3、s1、确认待识别文稿,再确定其相关格式,若本待识别文稿内部相关内容均为同一格式,则直接进行后续处理,若本待识别文稿内部相关内容存在多个格式,则进行数值分析,确定最佳转换方式,并对相关内容进行格式转换完成格式统一,包括:

4、s11、识别本待识别文稿内部文本内容的相关格式,并将不同相关格式所对应的文本内容容量标定为ri,其中i代表不同的相关格式;

5、s12、随机提取一种相关格式的文本内容,并从云端数据内确认本相关格式向其他相关格式的转换速率,其他相关格式不包括本相关格式,基于文本内容的容量ri,确定其转换时长tk,其中k代表所转换的相关格式的标记;

6、s13、再依次对每个相关格式的文本内容采用步骤s12的方式进行转换,确定对应的转换时长tk,基于标记k确定带有相同相关格式的标记的时长并求和,确定时长总合值zk,从若干组zk中,选定最小值,并将其标定为zkmin;

7、s14、提取比最小值zkmin最为接近的一组次小值czk,若(czk-zkmin)≥y1,其中y1为预设值,则直接执行步骤s15,若不满足:(czk-zkmin)≥y1,则确定最小值以及次小值的对应下标k,锁定对应的两组相关格式a或b,并确定同时包含分别转换为a或b两组相关格式的文本内容,将此文本内容划分为两组待转内容,前一组待转内容向a格式进行转换,后一组待转内容向b格式进行转换,确定转换速率,锁定一组转换速率较大的转换过程,并确定对应格式并复原另一格式的转换过程,将其标定为待转格式,将本待识别文稿内部不属于本待转格式的内容均转换为待转格式的相关内容,得到格式统一的待识别文稿;

8、s15、基于所确定的最小值zkmin,锁定标记k,将其标定为待转格式,将本待识别文稿内部不属于本待转格式的内容均转换为待转格式的相关内容,得到格式统一的待识别文稿;

9、s2、对格式统一的待识别文稿进行确认,并确定待填补表格,对待填补表格进行优先处理,确定其待填补项的相关字符,并与赋值特征表进行比对,确定相关待填补项的特征赋值,基于特征赋值,从待识别文稿内搜索相关的特征数据并填补,生成初填补表格,包括:

10、s21、提取预设的赋值特征表,且赋值特征表内每个不同的字符均对应不同的赋值,将待填补项的相关字符与赋值特征表比对,确定对应待填补项所对应的特征赋值;

11、s22、再对待识别文稿内部的文本内容的字符与赋值特征表进行比对,优先确定产生相关赋值的特征字符,确定其特征字符的首位赋值,并将首位赋值与待填补项特征赋值的首位字符进行比对,识别是否存在比对结果,若存在,则继续后续处理,若不存在,则剔除对应特征字符的赋值并还原;

12、s23、基于第一待填补项的特征赋值,确定与之首位相同赋值的特征字符,并确定本特征字符的后续内容赋值:

13、若二者赋值一致,将本特征字符后续的特征内容,填补至本待填补项的填补区域,特征内容的确定方式为:

14、确定特征字符的后续内容,并锁定后续的分隔符号,将第一组分隔符号之前,特征字符至后的相关内容标定为特征内容,分隔符号包括:逗号、句号或其他相关断句符号;

15、若二者赋值不一致,则继续搜索,若仍未找到相同的特征字符所对应的内容赋值,则不对此待填补项的填补区域进行填补;

16、s24、对后续待填补项进行依次填补,并在填补完毕后,确定初填补表格;

17、s3、确定初填补表格内空白区域的相关待填补项,从此待填补项的过往填补内容中,识别对应填补内容的相关特征,并依据识别规则,生成其待填补项的特征序列,包括:

18、s31、从过往的填补内容中,确定单组填补内容的数据个数,并将其标记为gt,其中t代表不同的填补内容,若gt均为相同值,将此gt标定为第一特征值,若gt不是相同值,则使用“0”作为第一特征值;

19、s32、确认单组填补内容的特殊符号的个数,并将其标定为st,其中特殊符号确认时,将其与符号列表进行比对,从而确定单组填补内容的特殊符号,且符号列表为预设表,若st均为相同值,将此st标定为第二特征值,若st不是相同值,则使用“0”作为第二特征值;

20、s33、若存在特殊符号,基于对应特殊符号位于对应填补内容的排序位置,并记录位置数值wt,若排序在第5位,则所记录的位置数值为5,若在对应内容第5位以及第7位均有对应的特殊符号,则所记录的位置数值为57,若wt均为相同值,将此wt标定为第三特征值,若wt不是相同值,则使用“0”作为第三特征值,同时,若不存在特殊符号,也使用“0”作为第三特征值;

21、s34、基于所确定若干个特征值,按照第一、第二、第三的排序方式,生成此待填补项的特征序列;

22、s4、基于对应待填补项所确认的特征序列,从文本内容进行内容确认提取,来识别具有相同特征序列的内容,并将其标定为关联内容;包括:

23、s41、基于对应文本内容内部的分隔符号,对文本内容中未提取的内容标定为待提取内容;

24、s42、优先确定若干个待提取内容的数值个数,将数值个数与特征序列第一特征值相同的待提取内容进行确定,再基于特征序列后续的特征值,对所确定的待提取内容进行依次筛选,确定筛选后的关联内容,若对应特征序列内某特征值为0,则直接跳过对应特征值的筛选过程,直接执行后续的特征筛选;

25、s43、将所确认的关联内容置于对应待填补项的待选区域,操作人员介入,确定本待填补项的正确内容,并直接进行填补。

26、本发明提供了基于文件表格的自动识别导入方法。与现有技术相比具备以下有益效果:

27、本发明通过对文本内容的内部文本格式进行确定,若存在单组格式则不处理,若存在多组格式,则需要进行格式转换,并通过确定对应的转换速率以及转换时间,来确定最佳的转换方式,来确定最快的格式转换效率,缩减转换时间,以此来达到更好的转换效果,提升文件的初步处理速率;

28、后续,进行内容提取时,优先对表格内相关的特征字符进行赋值,再分析文本内容,确定相关赋值,通过赋值匹配的方式,来确定相应的特征内容,并将所确定的特征内容进行提取,针对于未搜到赋值的情况,对待填补项的过往数据进行特征确认,锁定特征值,再进行文本搜索,确定相关特征值的相关内容,并进行提取,由操作人员进行选定,以此来完成对应文件表格的自动录入过程,降低操作人员的工作负担,锁定特征内容,进行自行填补。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1