一种自动识别PDF电子回单信息的方法、装置与计算机存储介质与流程

文档序号:21459159发布日期:2020-07-10 17:56阅读:599来源:国知局
一种自动识别PDF电子回单信息的方法、装置与计算机存储介质与流程
本发明涉及一种计算机
技术领域
,更具体涉及一种自动识别pdf电子回单信息的方法、装置与存储介质。
背景技术
:银行回单是企业编制记账凭证的原始依据,企业在收付款时都会有相应的回单作为证明。回单内容主要包括日期、编号、户名、账号、币种、金额等详细信息,每一笔账均有回单。因此,在集团公司的资金管理中会处理大量的回单。目前集团公司对下属企业的资金收付管控力度越来越高,一到月底,几百甚至上千笔银行回单,全部经由人工匹配到资金结算单、业务报账单上,简单的重复性劳动是件非常耗时的事情,是出纳的工作痛点,迫切需要提高工作效率、降低成本。技术实现要素:基于上述问题,本发明试提供一种自动识别pdf电子回单信息的方法,目的是准确获取所需要的文本内容,摆脱出纳人员拿着银行纸质银行回单进行手工对账的现状。目前读取文本内容的pdf文档方式有很多,比如:itestsharp和pdfbox,能以字符串的形式读取出来,但是银行间电子pdf回单格式不统一,同一银行也会存在格式不统一的问题,导致读取出来的文字顺序多种多样,无法通过一种固定的方式准确识别、获取所需要的文本内容。因此,只能对获取到的字符串按照一定的逻辑规则进行自行解析,通过预置模板,及某一字段的前置字段、后置字段的方法来更加准确的获取所需要的文本内容。为了实现上述目的,本发明提出一种自动识别pdf电子回单信息的方法,包括:s1接收用户发来的pdf电子回单任务;s2确定对应银行模板;s3读取所需业务内容;s4插入数据库的业务表;s5自动匹配资金结算单、业务报账单。优选的,步骤s1前还包括步骤:s0预置银行模板。进一步的,步骤s0包括:s101读取各银行pdf电子回单文本信息;s102根据各银行pdf电子回单文本信息建立模板预置表;s103根据各银行pdf电子回单文本信息建立字段预置表;s104分析文字数据并进行前置字段、后置字段数据预置。优选的,步骤s102中模板预置表包括数据类型均为varchar的字段:内码、银行编号、银行名称、模板编号、模板名称。优选的,步骤s103中字段预置表包括数据类型均为varchar的字段:内码、字段名称、字段编号、开始字段、终止字段、开始字段序号。进一步的,步骤s2包括:循环遍历模板预置表数据,获取每个模板对应的字段预置信息表的字段名称数据,在读取出来的文本内容中逐一查找,直到查找匹配到唯一的模板,如果查找到多个模板则进行提示“查找到多个银行模板,请检查模板配置”,查找不到匹配的模板则提示“查不到对应的银行模板”。进一步的,步骤s3包括:确定模板后,根据字段预置表中的开始字段、终止字段查找读取的文本内容,如果文本内容中开始字段数据有重复值的,则根据开始字段序号确定开始文本位置,再往后查找到第一个匹配的终止字段,两者中间部分的内容即为所需要的业务内容。本发明还提供一种自动识别pdf电子回单信息的装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序,以实现上述任一项自动识别pdf电子回单信息的方法。本发明还提供一种计算机存储介质,存储有计算机程序,所述计算机程序在执行时导致所述计算机存储介质的所在设备执行上述任一项自动识别pdf电子回单信息的方法。本发明通过分银行预置模板的方法,将文本内容的银行电子pdf回单文件读入到系统中,识别为格式化数据。通过预置的格式解析格式化数据,进而自动依次关联资金结算单、业务报账单,解决了出纳人员拿着银行纸质银行回单进行手工对账时工作量大、耗时长、效率低的工作痛点。另外,本发明可分银行灵活定义模板格式,相同银行pdf回单格式不同的可以定义对应的模板格式。通过预置、灵活识别某一字段的前置字段、后置字段的方法,能非常准确的获取所需要的文本内容,进而根据获取的内容自动匹配资金结算单、业务报账单。附图说明图1为本发明所述方法流程图;图2为本发明所述根据字段预置表中的开始字段、终止字段查找读取的文本内容示意图;图3为实施例中某银行的pdf电子回单示意图。具体实施方式为了更好地阐述和帮助理解本发明所述方法,提出实施例作为说明。应注意的是,实施例仅用以解释,不能作为限定本发明保护范围的依据。本发明提供一种自动识别pdf电子回单信息的方法,步骤流程图如图1,具体实现步骤如下:根据某银行pdf电子回单(图3),使用c#的itestsharp程序集的pdftextextractor类的gettextfrompage方法读取出来的文本内容如下:模板预置表结构设计如表1:序号字段名称字段标识数据类型1内码zjyhdzhdyszb_nmvarchar(40)2银行编号zjyhdzhdyszb_yhbhvarchar(100)3银行名称zjyhdzhdyszb_yhmcvarchar(100)4模板编号zjyhdzhdyszb_mbbhvarchar(100)5模板名称zjyhdzhdyszb_mbmcvarchar(100)表1字段预置表结构设计如表2:序号字段名称字段标识数据类型1内码zjyhdzhdys_nmvarchar(40)2字段名称zjyhdzhdys_zdmcvarchar(100)3字段编号zjyhdzhdys_zdbhvarchar(40)4开始字段zjyhdzhdys_kszdvarchar(100)5终止字段zjyhdzhdys_zzzdvarchar(100)6开始字段序号zjyhdzhdys_kszdxhvarchar(10)表2分析文字顺序、模板及业务字段的前置字段、后置字段数据预置,得到模板预置表如表3:表3字段预置表如表4:表4同理在数据库内预置其他银行模板。当接收用户的pdf电子回单任务时,根据预置数据进行程序解析,步骤如下。确定模板,遍历循环遍历模板预置表数据,获取每个模板对应的字段预置信息表的zjyhdzhdys_zdmc列数据,在读取出来的文本内容中逐一查找,直到查找匹配到唯一的模板,如果查找到多个模板则进行提示“查找到多个银行模板,请检查模板配置”,查找不到匹配的模板则提示“查不到对应的银行模板”。读取所需要的业务内容:确定模板后,根据字段预置表中的zjyhdzhdys_kszd(开始字段)、zjyhdzhdys_zzzd(终止字段)查找读取的文本内容,如图2所示,如果文本内容中开始字段数据有重复值的,则根据zjyhdzhdys_kszdxh(开始字段序号)确定开始文本位置,再往后查找到第一个匹配的终止字段,两者中间部分的内容即为所需要的业务内容。插入数据库业务表:根据第2步读取到的业务内容及对应的zjyhdzhdys_zdbh(字段编号),形成sql语句插入到业务表中。自动匹配资金结算单、业务报账单:根据第3步形成的业务表数据,查找对应内容的资金结算单、业务报账单。以上仅为本发明的一种实施方式,不作为保护范围限定。凡是利用本发明说明书及附图内容所做出的等效替换,均落在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1