原件和比对件的比对方法及装置与流程

文档序号:18398970发布日期:2019-08-09 23:41阅读:273来源:国知局
本发明涉及图像比对
技术领域
:,尤其是涉及一种原件和比对件的比对方法及装置。
背景技术
::在文件来往的过程中,对于对方发回的纸面文件,为了确保该纸面文件正确无误需要进行审核。对纸面文件的审核目前主要是通过人工审核或ocr(opticalcharacterrecognition,光学字符识别)技术进行审核。人工审核比对纸面文件和原版电子文件的差异,对执行人的要求很高,要求执行人有很高的业务水平、责任心、耐心、比对技能。而且人工审核费时费力、错误率较高;ocr技术比对纸面文件和原版电子文件的差异,需要先把纸面文件转换成文本形式的电子文档,再和电子合同原件进行比较发现其中的差异。通过ocr技术审核,需要对纸面文件的文字进行文字识别,处理环节较多,需要的技术复杂,计算工作量较大,比对一页纸面文件需要数分钟甚至十几分钟,比对时间长,通过ocr技术审核受ocr技术限制错误率较高,而且ocr技术受到支持语言的限制,对ocr技术不支持的语言无法进行转换和比对。针对上述现有技术中人工审核费时费力、错误率较高;ocr技术审核比对时间长,错误率较高,对ocr技术不支持的语言无法进行转换和比对的问题,目前尚未提出有效解决方案。技术实现要素:有鉴于此,本发明的目的在于提供一种原件和比对件的比对方法及装置,以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。第一方面,本发明实施例提供了一种原件和比对件的比对方法,包括:获取原件的图片和比对件的图片;对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符;判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值;如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符,包括:对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片;对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,对所述原件的图片和所述比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片,包括:对所述原件的图片和所述比对件的图片进行灰度化处理,得到灰度化原件图片和灰度化比对件图片;对所述灰度化原件图片和所述灰度化比对件图片进行二值化处理,得到预处理原件图片和预处理比对件图片。结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符,包括:从预处理原件图片和预处理比对件图片中分别获取原件中字符和比对件中字符的像素信息;将原件中字符的像素信息作为原件字符,将比对件中字符的像素信息作为比对件字符。结合第一方面及其第一到三种可能的实施方式之一,本发明实施例提供了第一方面的第四种可能的实施方式,其中,判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值,包括:按照原件字符和比对件字符的排列顺序,根据预设逻辑,得到每个比对件字符对应原件字符的最佳匹配位置;逐字符对原件字符和最佳匹配位置的比对件字符进行比对确定差别;差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值;总像素点数量为原件字符像素点数量与比对件字符像素点数量的均值;判断差别是否大于预设阈值。结合第一方面及其第一到三种可能的实施方式之一,本发明实施例提供了第一方面的第五种可能的实施方式,其中,在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:判断原件的图片和比对件的图片的尺寸是否一致;如果不一致,将比对件的图片缩放到与原件的图片的高度一致。结合第一方面及其第一到四种可能的实施方式之一,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:判断比对件的图片是否存在黑边框、线条、表格线或红章;如果是,去除黑边框、线条、表格线或红章。结合第一方面及其第一到四种可能的实施方式之一,本发明实施例提供了第一方面的第七种可能的实施方式,其中,在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:判断比对件的图片是否倾斜;如果是,旋转比对件的图片,以使比对件的图片和原件的图片平行。第二方面,本发明实施例还提供一种原件和比对件的比对装置,包括:获取模块,用于获取原件的图片和比对件的图片;图片模块,用于对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符;判断模块,用于判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值;标记模块,用于如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,还包括:预处理模块,用于对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片;字符切割模块,用于对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。本发明实施例带来了以下有益效果:本发明实施例提供的原件和比对件的比对方法及装置,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种原件和比对件的比对方法的流程图;图2为本发明实施例提供的一种图像预处理方法的流程图;图3为本发明实施例提供的另一种原件和比对件的比对方法的流程图;图4为本发明实施例提供的一种原件和比对件的比对装置的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。目前,对纸面文件进行审核,主要依靠人工审核或ocr技术进行审核。人工审核比对纸面文件和原版电子文件的差异,对执行人的要求很高,要求执行人有很高的业务水平、责任心、耐心、比对技能。而且人工审核费时费力、错误率较高;ocr技术比对纸面文件和原版电子文件的差异,需要先把纸面文件转换成文本形式的电子文档,再和电子合同原件进行比较发现其中的差异。通过ocr技术审核,需要对纸面文件的文字进行文字识别,处理环节较多,需要的技术复杂,计算工作量较大,比对一页纸面文件需要数分钟甚至十几分钟,比对时间长,通过ocr技术审核受ocr技术限制错误率较高,而且ocr技术受到支持语言的限制,对ocr技术不支持的语言无法进行转换和比对。基于此,本发明实施例提供的一种原件和比对件的比对方法及装置,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。为便于对本实施例进行理解,首先对本发明实施例所公开的一种原件和比对件的比对方法进行详细介绍。实施例1本发明实施例1提供了一种原件和比对件的比对方法,参见图1所示的一种原件和比对件的比对方法的流程图,包括如下步骤:步骤s102,获取原件的图片和比对件的图片。服务器接收原件和比对件,原件和比对件一般是指合同原件和对方发回的合同,原件可以是纸面文件,也可以是电子文件。比对件一般为纸面文件。原件一般不存在任何问题,比对件通常经过多次传播,不能确定比对件是否存在被人为修改,或者因传播过程或沟通失误导致的修改或遗漏等情况。因此,需要对原件和比对件进行比对。图像采集装置可以是摄像头或者扫描仪,原件的图片和比对件的图片一般由图像采集装置采集得到,图像采集的格式为一般的图片格式均可,例如:jpg(jointphotographicexpertsgroup,联合图像专家组)、png(portablenetworkgraphics,便携式网络图形)、bmp(bitmap,位图文件)等等。如果原件为电子文件,服务器可以通过接收电子文件并将电子文件转化为图片文件,获取原件的图片。步骤s104,对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符。字符切割主要目的是将原件的图片和比对件的图片中的字符分割出来,得到原件字符和比对件字符。字符包括汉字、英文字母、标点符号等等。步骤s106,判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值。逐字符判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值,将原件字符和最佳匹配位置的比对件字符叠放后,差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值,总像数点数量为原件字符像素点数量与比对件字符像素点数量的均值。预设阈值可以手动设置及修改,一般设置在10%-20%之间,即如果差别大于预设阈值,则认为原件字符和最佳匹配位置的比对件字符不同,为差异字符;如果差别小于等于预设阈值,则认为原件字符和最佳匹配位置的比对件字符相同。按照原件字符和比对件字符的排列顺序逐字符进行比对,比对件字符在原件字符中没有找到最佳匹配位置或者比对件字符比原件字符多出的比对件字符为差异字符。步骤s108,如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。在比对件的图片上标记步骤s106中比对差别大于阈值的字符。如果差别大于预设阈值,则认为该比对件字符为差异字符,在比对件的图片上标注差异字符。一般通过圈注等形式标记。差异字符还包括在原件字符中没有找到最佳匹配位置或者比对件字符比原件字符多出的比对件字符。本发明实施例提供的上述方法,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符,需要首先进行预处理,例如,可以按照以下步骤执行:(1)对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片。预处理包括灰度化、二值化、图片矫正、图片缩放、去除红章、线条、表格线等,通过预处理得到预处理原件图片和预处理比对件图片。其中,图像二值化步骤依次包括灰度化和二值化,参见图2的一种图像预处理方法的流程图,例如,可以按照以下步骤执行:步骤s202,对原件的图片和比对件的图片进行灰度化处理,得到灰度化原件图片和灰度化比对件图片。灰度是指使用黑色调表示物体,即用黑色为基准色,不同的饱和度的黑色来显示图像。灰度化,是指将彩色图片转化为灰度图片。灰度化处理后的原件图片和比对件图片,称为灰度化原件图片和灰度化比对件图片。步骤s204,对灰度化原件图片和灰度化比对件图片进行二值化处理,得到预处理原件图片和预处理比对件图片。二值化就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果。二值化可以把灰度图像转换成二值图像。把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,从而实现二值化。二值化处理后的灰度化原件图片和灰度化比对件图片,称为预处理原件图片和预处理比对件图片。(2)对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。对二值化后的预处理原件图片和预处理比对件图片,通过字符切割提取原件字符和比对件字符,例如,可以按照以下步骤执行:(1)从预处理原件图片和预处理比对件图片中分别获取原件中字符和比对件中字符的像素信息。先把预处理原件图片和预处理比对件图片中的每一行分出,再把每一行中的每一个字符切割,得到每一个字符的像素信息。(2)将原件中字符的像素信息作为原件字符,将比对件中字符的像素信息作为比对件字符。将预处理原件图片中的每一个字符的像素信息作为原件字符,将预处理比对件图片中的每一个字符的像素信息作为比对件字符。本发明实施例提供的上述方法,对原件图片和比对件图片预处理,预处理包括灰度化和二值化,对二值化后的预处理原件图片和预处理比对件图片,通过字符切割提取原件字符和比对件字符。判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值,需要逐字符进行判断,例如,可以按照以下步骤执行:(1)按照原件字符和比对件字符的排列顺序,根据预设逻辑,得到每个比对件字符对应原件字符的最佳匹配位置。通过预设逻辑,可以确定每个比对件字符对应原件字符的最佳匹配位置。(2)逐字符对原件字符和最佳匹配位置的比对件字符进行比对确定差别。逐字符确定差别,即对于每个原件字符,同最佳匹配位置的比对件字符逐行逐字符确定差别。差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值;总像素点数量为原件字符像素点数量与比对件字符像素点数量的均值。(3)判断差别是否大于预设阈值。预设阈值可以手动设置及修改,一般设置在10%-20%之间,即如果差别大于预设阈值,则认为原件字符和最佳匹配位置的比对件字符不同;如果差别小于等于预设阈值,则认为原件字符和最佳匹配位置的比对件字符相同。本发明实施例提供的上述方法,通过逐字符确定差别并判断差别是否大于预设阈值,确定原件字符和最佳匹配位置的比对件字符是否相同。在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,需要调整原件图片和比对件图片的尺寸,上述方法还包括:(1)判断原件的图片和比对件的图片的尺寸是否一致。因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法、以及分辨率的不同,采集的比对件图片和原件的图片可能存在尺寸不一致的问题。(2)如果不一致,将比对件图片缩放到与原件图片的高度一致。如果尺寸不一致,需要将比对件图片缩放到与原件图片的高度一致。一般来说,虽然尺寸不一致,但是原件图片与比对件图片的比例相同,将比对件图片缩放到与原件图片的高度一致,也可以保证原件图片与比对件图片的宽度一致。本发明实施例提供的上述方法,通过将比对件图片缩放到与原件图片的高度一致,保证比对的准确性。在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还需要去除图像噪声,上述方法还包括:(1)判断比对件的图片是否存在黑边框、线条、表格线或红章。图像噪声包括黑边框、线条、表格线或红章,如果比对件图片存在图像噪声,需要去除。如果比对件图片通过扫描或拍照取得,则可能存在黑边框或线条;对于已盖红章的比对件图片,也需要去除红章;如果比对件图片存在表格线,也要将表格线去除。(2)如果是,去除黑边框、线条、表格线或红章。本发明实施例提供的上述方法,通过去除黑边框、线条、表格线或红章,保证比对的准确性。在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还需要保证原件图片和比对件图片平行。上述方法还包括:(1)判断比对件图片是否倾斜。因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在倾斜的问题。(2)如果是,旋转比对件的图片,以使比对件的图片和原件的图片平行。如果比对件图片倾斜,需要通过旋转以使原件图片和比对件图片平行。本发明实施例提供的上述方法,通过旋转比对件图片,以使原件图片和比对件图片平行,保证比对的准确性。本发明实施例提供的一种元件和比对件的比对方法,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。对原件图片和比对件图片预处理,预处理包括灰度化和二值化,对二值化后的预处理原件图片和预处理比对件图片,通过字符切割提取原件字符和比对件字符。通过逐字符确定差别并判断差别是否大于预设阈值,确定原件字符和最佳匹配位置的比对件字符是否相同。通过将比对件图片缩放到与原件图片的高度一致,去除黑边框、线条、表格线或红章,旋转比对件图片,以使原件图片和比对件图片平行,保证比对的准确性。实施例2本发明实施例2提供了另一种原件和比对件的比对方法,参见图3所示的另一种原件和比对件的比对方法的流程图,包括如下步骤:步骤s302,获取原件的图片和比对件的图片。原件的图片一般由原件的电子文档直接转化而来,比对件的图片一般由图像采集装置采集得到,图像采集装置可以是摄像头或者扫描仪,图像采集的格式为一般的图片格式均可,例如:jpg、png、bmp等等。步骤s304,判断比对件图片是否存在红章;如果是,执行步骤s306;如果否,执行步骤s308。图像噪声包括黑边框、线条、表格线和红章,如果比对件图片存在图像噪声,需要去除。对于已盖红章的比对件图片,需要去除红章。步骤s306,去除红章。步骤s308,对原件图片和比对件图片进行灰度化处理。灰度化,是指将彩色图片转化为灰度图片。步骤s310,判断比对件图片是否摆正。如果是,执行步骤s314;如果否,执行步骤s312。因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在横放的问题。纸面文件在如果横放,拍照后也是横的,需要转正图片。步骤s312,转正比对件图片。步骤s314,判断比对件图片是否存在黑边框或线条;如果是,执行步骤s316;如果否,执行步骤s318。如果比对件图片通过扫描或拍照取得,则可能存在黑边框或线条,需要去除。步骤s316,去除黑边框或线条,获取纸张区域。步骤s318,判断比对件图片是否倾斜。如果是,执行步骤s320;如果否,执行步骤s322。因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在倾斜的问题。步骤s320,旋转比对件图片,以使原件图片和比对件图片平行。步骤s322,判断原件图片和比对件图片的尺寸是否一致;如果否,执行步骤s324;如果是,执行步骤s326。因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,原件图片和采集的比对件图片可能存在尺寸不一致的问题。步骤s324,将比对件图片缩放到与原件图片的高度一致。因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在尺寸不一致的问题。步骤s326,对原件图片和比对件图片进行二值化处理。步骤s328,判断比对件图片是否存在表格线;如果是,执行步骤s330;如果否,执行步骤s332。步骤s330,去除表格线。步骤s332,去除噪点,得到预处理比对件图片。噪点是图像中一种亮度或颜色信息的随机变化(被拍摄物体本身并没有),通常是电子噪声的表现。它一般是由扫描仪或数码相机的传感器和电路产生的,也可能是受胶片颗粒或者理想光电探测器中不可避免的的散粒噪声影响产生的。图像噪声是图像拍摄过程中不希望存在的副产品,给图像带来了错误和额外的信息。步骤s334,从预处理原件图片和预处理比对件图片中分别获取原件中字符和比对件中字符的像素信息。先把预处理原件图片和预处理比对件图片中的每一行分出,再把每一行中的每一个字符切割,得到每一个字符的像素信息。步骤s336,将原件中字符的像素信息作为原件字符,将比对件中字符的像素信息作为比对件字符。将预处理原件图片中的每一个字符的像素信息作为原件字符,将预处理比对件图片中的每一个字符的像素信息作为比对件字符。步骤s338,按照原件字符和比对件字符的排列顺序,根据预设逻辑,得到每个比对件字符对应原件字符的最佳匹配位置。通过预设逻辑,可以确定每个比对件字符对应原件字符的最佳匹配位置。步骤s340,逐字符对原件字符和最佳匹配位置的比对件字符进行比对确定差别。逐字符确定差别,即对于每个原件字符,同最佳匹配位置的比对件字符逐行逐字符确定差别。差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值;总像素点数量为原件字符像素点数量与比对件字符像素点数量的均值。步骤s342,判断差别是否大于预设阈值,并在比对件的图片上标记差别大于阈值的字符。预设阈值可以手动设置及修改,一般设置在10%-20%之间,即如果差别大于预设阈值,则认为原件字符和最佳匹配位置的比对件字符不同;如果差别小于等于预设阈值,则认为原件字符和最佳匹配位置的比对件字符相同。如果差别大于预设阈值,在比对件的图片上标注对应的比对件字符。一般通过圈注等形式标记。本发明实施例提供的一种元件和比对件的比对方法,通过读取、去红章、灰度化、转正、去边框或线条、旋转纸张、缩放、二值化、去表格线、去噪点、字符切割、比对判断差异并标记,可以节约时间和人力成本、降低错误率,保证比对的准确性,并且不受支持的语言的限制。实施例3本发明实施例3提供一种原件和比对件的比对装置,参见图4所示的一种原件和比对件的比对装置的结构示意图,包括获取模块41、字符切割模块42、判断模块43、标记模块44,上述各模块的功能如下:获取模块41,用于获取原件的图片和比对件的图片;图片模块42,用于对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符;判断模块43,用于判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值;标记模块44,用于如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。上述装置还包括:预处理模块,用于对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片。字符切割模块,用于对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的原件和比对件的比对装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本发明实施例提供的原件和比对件的比对装置,与上述实施例提供的原件和比对件的比对方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1