一种数据处理方法及数据处理系统的制作方法_2

文档序号:9489711阅读:来源:国知局
张图像进行分割识别即可。
[0043]在具体实施过程中,如果至少一张纸质单据具体为1张纸质单据,那么对于纸张图像的分割识别是指对一张纸质单据图像与其旁边的干扰因素(例如背景或周边像素)的分割识别,以便最终识别出该一张纸质单据图像。
[0044]或者,如果至少一张纸质单据具体为大于等于2张(例如4张)的纸质单据,那么对于纸张图像的分割识别是指对4张纸质单据图像相互之间以及该4张纸质单据图像分别与其旁边的干扰因素的分割识别,以便最终分割识别出分别独立的该4张纸质单据图像。
[0045]在获得分别独立的至少一张纸质单据图像之后,可以分别将其进行保存,而本发明实施例中的第一纸质单据图像可以为其中的任意一张。
[0046]在第一种方式中,可以同时针对多张纸质单据进行分割识别,效率较高,而对于用户来说,可以将多张纸质单据只进行一次整理就交由电子设备进行处理,操作比较方便,并且,对整理纸质单据的人员的要求较低,该人员即使不具有专业知识也能够完成该项操作,使用的普遍性较高,在一定程度上来说,可以降低企业的人力成本。
[0047]第二种方式:
[0048]可选的,本发明另一实施例中,获得与第一纸质单据对应的第一纸质单据图像,包括:
[0049]接收用户的第一输入操作;其中,第一输入操作用于输入第一纸质单据图像;
[0050]根据第一输入操作,获得第一纸质单据图像。
[0051]也就是说,在用户需要通过电子设备对第一纸质单据进行处理时,便可以通过人为干预的方式向电子设备输入第一纸质单据图像,这样可以尽量满足用户的实际需求,针对性较强。
[0052]第三种方式:
[0053]可选的,本发明另一实施例中,获得与第一纸质单据对应的第一纸质单据图像,包括:
[0054]控制图像采集单元采集获得与第一纸质单据对应的第一纸质单据图像。
[0055]S卩,可以通过图像采集单元直接对第一纸质单据进行图像采集,以便及时获得与第一纸质单据对应的第一纸质单据图像。
[0056]在第三种方式中,可以充分利用电子设备的自身硬件配置及时准确地获得第一纸质单据图像,并且在获得第一纸质单据图像后可以无需保存就进行后续操作,可以尽量避免对电子设备的存储空间的占用,节约资源。
[0057]上述只是列举了三种获得第一纸质单据图像的方式,当然,在实际实施过程中,还可以具有其它的方式,此处就不一一进行说明了,凡是能够获得与第一纸质单据对应的第一纸质单据图像的方式均应在本发明的保护范围之内。
[0058]步骤102:基于第一纸质单据图像,从Μ个数据要素中确定N个数据要素,N为小于等于Μ的正整数。
[0059]在获得第一纸质单据图像之后,可以通过文字识别技术对第一纸质单据图像中的文字进行识别,以根据第一纸质单据图像获得第一纸质单据包括的Μ个数据要素。其中,文字识别,可以包括对汉字、字母、数字以及标点符号的识别。在具体实施过程中,例如可以通过模板匹配法、几何特征抽取法或其它方式进行文字识别,至于具体的文字识别方式本发明不做限制。
[0060]另外,根据实际需求,可以从Μ个数据要素中选择部分数据要素进行保存,此时Ν的取值小于Μ的取值,或者,也可以将Μ个数据要素全部进行保存,此时Ν的取值与Μ的取值相同。
[0061]可选的,本发明另一实施例,基于第一纸质单据图像,从Μ个数据要素中确定Ν个数据要素,包括:
[0062]确定第一纸质单据的单据类型;
[0063]根据单据类型,确定针对第一纸质单据图像需要采集的要素采集项目集;
[0064]通过对第一纸质单据图像中的文字进行识别,从Μ个数据要素中确定属于要素采集项目集的Ν个数据要素。
[0065]在具体实施过程中,可以先确定第一纸质单据的单据类型。具体来说,可以分为用户手动确定和设备自动确定两种方式进行确定。
[0066]对于用户手动确定的方式来说,用户可以从设备存储的单据类型库中手动选择与第一纸质单据对应的单据类型,例如用户选择的单据类型为“增值税普通发票”或“收款收据”,等等。
[0067]对于设备自动确定的方式来说,由于不同的单据类型对应的物理尺寸一般是不一样的,所以可以根据第一纸质单据图像的物理尺寸来确定第一纸质单据的具体单据类型。
[0068]为了便于后续描述,本发明实施例中将与第一纸质单据对应的单据类型称为第一单据类型。
[0069]在确定第一单据类型之后,可以根据电子设备预先存储的单据类型与要素采集项目集之间的对应关系,确定与第一单据类型对应的要素采集项目集(例如称作第一要素采集项目集),例如,继续参见图2,由于第一纸质单据的单据类型为“增值税普通发票”,与其对应的第一要素采集项目集可以为{发票号码、发票代码、购买方名称、销售方名称、货物名称、规格型号、单位、数量、单价、金额、税率、税额、价税合计、开票日期、开票人}。当然第一要素采集项目还可以为包含其它数据要素的集合,具体可以根据财务人员进行财务核算的要求而定,或者也可以根据不同企业的不同要求而定,本发明不做具体限制。
[0070]或者,可选的,本发明另一实施例,根据单据类型,确定针对第一纸质单据图像需要采集的要素采集项目集,包括:
[0071]调用与单据类型对应的要素采集模板;
[0072]根据要素采集模板,确定针对第一纸质单据图像需要采集的要素采集项目集。
[0073]也就是说,电子设备中可以预先存储有与多种单据类型对应的多种要素采集模板,那么,在确定第一单据类型之后,便可以直接从多种要素采集模板中确定与第一单据类型对应的要素采集模板,进而再根据第一采集模板确定针对第一纸质单据图像需要采集的第一要素采集项目集。
[0074]在确定第一要素采集项目集之后,进一步再分别针对Μ个数据要素进行识别判断,将属于第一要素采集项目集的数据要素均划分为N个数据要素内。
[0075]可选的,本发明另一实施例,从Μ个数据要素中确定属于要素采集项目集的N个数据要素,包括:
[0076]若确定第一数据要素与第一要素采集项目匹配且第一要素采集项目对应为数字型要素采集项目,判断第一数据要素包含的小数位数是否与第一要素采集项目所对应的小数位数相等;其中,所述第一数据要素为Μ个数据要素中的任意一个,第一要素采集项目为要素采集项目集中的一个;
[0077]若相等,则将第一数据要素确定为Ν个数据要素中的一个。
[0078]在具体实施过程中,第一要素采集项目集中可能包括多种类型的要素采集项目,例如有文本型、数字型,等等。其中,对于数字型要素采集项目来说,在识别时还需判断小数点的位数是否正确,例如在运用电子设备进行财务核算时,如果某个数字的小数位数与要求的匹配的话,该数字将可能被视无效。例如,第一要素采集项目要求的小数位数为两位,那么对于12.12、28.1、3.87、9.65、33.966这五个数字,就只会将12.12、3.87和9.65确定为有效进行计算,而对于28.1和33.966这两个数字,由于小数位数不匹配则自动将其视为无效。
[0079]所以,在具体实施过程中,当确定第一数据要素与第一要素采集项目匹配时,还需要判断第一数据要素包含的小数位数与第一要素采集项目所要求的小数位数是否相等,只有在相等的情况下,才会将其作为Ν个数据要素中的一个,以便避免后续在进行财务核算时被视为无效的情形,这样可以尽量提高采集的准确性。
[0080]另外,在确定第一数据要素包含的小数位数与第一要素采集项目所要求的小数位数不相等时,可以发出提示信息以提醒用户进行手动纠错,这样可以尽量提高采集的准确性,或者,设备还可以按照预定规则自动将第一数据要素包括的小数位数纠正为与第一要素采集项目所述要求的小数位数相等的小数位数。例如,继续以上述例子为例,对于12.12、28.1,3.87,9.65,33.966这五个数字,当确定28.1和33.966这两个数字不满足小数位数要求时,电子设备可以自动将28.1纠正为28.10,这样在数值上是并未发生改变的,而对于小数位数为三位的33.966来说,可以按照四舍五入的方式将其纠正为包含两位小数的数字,即,通过电子设备的自动纠正之后,33.966将变为33.97,并最终将12.12,28.10,3.87、9.65、33.97作为对五个数字的最终识别结果。
[0081]可选的,本发明另一实施例,从Μ个数据要素中确定属于要素采集项目集的Ν个数据要素,包括:
[0082]若确第二数据要素识别的精准度低于预定精准度,则输出与第二数据要素对应的要素图像,并判断在第一预定时间内是否接收第二输入操作;其中,第二数据要素为Μ个数据要素中的任意一个,第二输入操作为用户进行的、用于根据与要素图像对第二数据要素进行人工识别的操作,第一预定时长以输出要素图像的时刻为起始时刻;
[0083]若确定在第一预定时间内接收到第二输入操作,则根据第二输入操作,将通过人工识别的第二数据要素作为Ν个数据要素中的一个。
[0084]在具体实施过程中,也许由于拍照光线不足,或者由于
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1