图片识别测试方法、装置、计算机设备及存储介质与流程

文档序号:17726496发布日期:2019-05-22 02:32阅读:202来源:国知局
图片识别测试方法、装置、计算机设备及存储介质与流程

本发明涉及计算机数据处理领域,尤其涉及一种图片识别测试方法、装置、计算机设备及计算机可读存储介质。



背景技术:

ocr是光学字符识别的缩写(opticalcharacterrecognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。ocr组件上线之前,需要对ocr组件进行图像识别测试以得出该ocr组件的准确率。对ocr组件进行图像识别测试可通过对样本图片进行识别,进而通过人工核对以得出图片识别结果,并根据图片识别结果得出识别错误率。但样本图片的数量庞大,人工核对不仅速度慢,而且容易出现核对偏差,从而导致测试效率低下,测试结果不准确等问题。



技术实现要素:

本发明实施例提供了一种图片识别测试方法、装置、计算机设备及存储介质,旨在解决图片识别测试中测试速度慢、准确率低等问题。

第一方面,本发明实施例提供了一种图片识别测试方法,其包括:根据样本图片的类型确定与所述样本图片对应的格式标签,以及确定与所述格式标签对应的字段规则;调用光学字符识别技术对样本图片进行识别,以得出文本信息,所述文本信息包括标签文本以及字段文本;将所述文本信息与所述格式标签进行比对,以获取与所述格式标签相匹配的标签文本,并确定与所述标签文本对应的字段文本;根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果;根据所述图片识别结果生成图片识别错误率。

第二方面,本发明实施例提供了一种图片识别测试装置,其包括:

规则确定单元,用于根据样本图片的类型确定与所述样本图片对应的格式标签,以及确定与所述格式标签对应的字段规则;

图片识别单元,用于调用光学字符识别技术对样本图片进行识别,以得出文本信息,所述文本信息包括标签文本以及字段文本;

信息比对单元,用于将所述文本信息与所述格式标签进行比对,以获取与所述格式标签相匹配的标签文本,并确定与所述标签文本对应的字段文本;

第一生成单元,用于根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果;

第二生成单元,用于根据所述图片识别结果生成图片识别错误率。

第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述图片识别测试方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述图片识别测试方法。

本发明实施例提供一种图片识别测试方法、装置、计算机设备及计算机可读存储介质。该方法包括根据样本图片的类型确定与所述样本图片对应的格式标签,以及确定与所述格式标签对应的字段规则;调用光学字符识别技术对样本图片进行识别,以得出文本信息,所述文本信息包括标签文本以及字段文本;将所述文本信息与所述格式标签进行比对,以获取与所述格式标签相匹配的标签文本,并确定与所述标签文本对应的字段文本;根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果;根据所述图片识别结果生成图片识别错误率。实施本发明实施例,在通过光学字符识别对样本图片的识别过程中,无需人工对图片识别结果进行比对,可自动获取光学字符识别的图片识别结果,进而实现基于光学字符识别的图片识别测试,具有低成本高效率的优点。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种图片识别测试方法的流程示意图;

图2为本发明一实施例提供的一种图片识别测试方法的流程示意图;

图3为本发明一实施例提供的一种图片识别测试方法的流程示意图;

图4为本发明一实施例提供的一种图片识别测试方法的流程示意图;

图5为本发明一实施例提供的一种图片识别测试方法的流程示意图;

图6为本发明一实施例提供的一种图片识别测试装置的示意性框图;

图7为本发明一实施例提供的一种图片识别测试装置的另一示意性框图;

图8为本发明一实施例提供的一种图片识别测试装置的另一示意性框图;

图9为本发明一实施例提供的一种图片识别测试装置的另一示意性框图;

图10为本发明一实施例提供的一种图片识别测试装置的另一示意性框图;

图11为本发明一实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

本发明实施例所提供的图片识别测试方法可应用于台式电脑、平板电脑、手提电脑等终端。

请参照图1,其为本发明一实施例提供的一种图片识别测试方法的流程示意图。所述图片识别测试方法包括但不限于步骤s110-s150。

s110,根据样本图片的类型确定与所述样本图片对应的格式标签,以及确定与所述格式标签对应的字段规则。

具体地,通过图片采集装置对样本证件进行图像采集以得到样本图片,该样本图片可存储于测试终端中,以备测试时使用。其中测试终端可以为平板电脑、笔记本电脑、台式电脑等电子设备,图片采集装置可以为摄像头、扫描仪等。

样本图片为对样本证件进行图像采集后所得到的图片文件,其中样本证件的类型包括身份证、居住证、营业执照、不动产登记证等等。对应地,不同类型的样本证件对应采集得到不同类型的样本图片,即所述样本图片的类型对应于所述样本证件的类型,如若样本证件的类型为身份证,该样本证件所采集得出的样本图片的类型为身份证。

根据样本图片的类型确定与所述样本图片对应的格式标签具体可通过预设的标签映射关系实现,该预设的标签映射关系用于存储样本图片类型与格式标签的映射关系。例如,假设其中一个预设的标签映射关系具体为“身份证”映射于“姓名”、“性别”、“民族”、“公民身份证号”、“签发机关”,若样本图片的类型为身份证,则可确定与“身份证”对应的格式标签为“姓名”、“性别”、“民族”、“公民身份证号”、“签发机关”。

同理,确定与所述格式标签对应的字段规则可通过预设的规则映射关系实现,该预设的规则映射关系用于存储格式标签与字段规则的映射关系。例如,假设其中一个预设的规则映射关系具体为“公民身份证号”映射于规则一、规则二、规则三、规则四。若格式标签为“公民身份证号”,则可确定与“公民身份证号”对应的字段规则为规则一、规则二、规则三、规则四。需要说明的是,不同的格式标签对应存在不同的字段规则,具体的字段规则可根据实际需求进行设定。

具体实施中,规则一具体为:字段字符为18位的数字字符;规则二具体为:前六位数字字符组成的字符串存在于预设的数字地址码集合中;规则三具体为:第七至第十四位数字字符组成的字符串存在于预设的出生日期码集合中;规则四具体为:最后一位数字是否与根据预设的校验码计算规则计算所得出的数值相同。

其中,预设的数字地址码集合为预先存储于测试终端中的数字地址码集合,用于存储公民身份证号中的数字地址码。该数字地址码例如为“371000”,表示该公民身份证号所对应的行政地区为“威海市”。通过收录全国各个行政地区的数字地址码可建立预设的数字地址码集合。预设的出生日期码集合为预先存储于测试终端中的出生日期码集合,用于存储公民身份证号中的出生日期码,该出生日期码例如为“19990618”,表示该公民身份证号对应的出生提起为1999年6月18日。通过设置出生日期具体的起止日期可建立预设的出生日期码集合,如该预设的出生日期码集合具体可为19000101-20180902。预设的校验码计算规则为iso7064:1983.mod11-2校验码计算法,具体计算方法不在此赘述。

s120,调用光学字符识别技术对样本图片进行识别,以得出文本信息,所述文本信息包括标签文本以及字段文本。

具体地,光学字符识别技术(opticalcharacterrecognition,ocr)是采用光学的方式将文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式的技术。通过调用光学字符识别技术可实现对样本图片的识别,得出文本信息。

s130,将所述文本信息与所述格式标签进行比对,以获取与所述格式标签相匹配的标签文本,并确定与所述标签文本对应的字段文本。

具体地,假设该样本图片的类型为身份证,则该样本图片对应的格式标签可包括“姓名”、“性别”、“民族”、“公民身份证号”、“签发机关”等等。若通过光学字符识别技术所识别得到的文本信息为“姓名张三性别男民族汉出生日期1999年6月18日公民身份怔号……”。

若文本信息中存在与格式标签相同的字符串,则确定该字符串为与所述格式标签相匹配的标签文本,同时确定该标签文本与下一标签文本之间的字符串为与该标签文本对应的字段文本。例如,通过将文本信息与格式标签进行比对可知,“姓名”、“性别”、“民族”与格式标签中的“姓名”、“性别”、“民族”相同,则确定文本信息中的“姓名”、“性别”、“民族”分别为与格式标签中的“姓名”、“性别”、“民族”对应的标签文本,同时可确定“姓名”与“性别”之间的字符串“张三”为“姓名”对应的字段文本。

因光学识别技术存在一定的出错率,可能会出现所识别的文本信息出现错误的现象。若文本信息中不存在与格式标签相同的字符串,将文本信息中与格式标签匹配度最高的字符串确定为与所述格式标签相匹配的标签文本。例如,文本信息中的“公民身份怔号”为与格式标签中“公民身份证号”匹配度最高的字符串,则将文本信息中“公民身份怔号”确定为与格式标签中“公民身份证号”对应的标签文本,同时将“公民身份怔号”与下一标签文本之间的字符串确定为与“公民身份怔号”对应的字段文本。

若该标签文本后不存在下一个标签文本,则将该标签文本后的字符串确定为该标签文本对应的字段文本。

s140,根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果。

具体地,根据所述字段文本所对应的标签文本可确定所述字段文本对应的格式标签,进而根据所述格式标签对应的字段规则以及预设的规则映射关系可确定所述字段文本对应的字段规则。

在一实施例中,如图2所示,步骤s140包括但不限于步骤s141-s142。

s141,判断所述标签文本对应的字段文本是否满足所述格式标签对应的字段规则。

假设该字段文本对应的标签文本为“公民身份怔号”,且该标签文本“公民身份怔号”对应的格式标签为“公民身份证号”,根据预设的规则映射关系可确定格式标签“公民身份证号”对应的字段规则包括规则一、规则二、规则三、规则四。如前所述,规则二具体为:前六位数字字符组成的字符串存在于预设的数字地址码集合中。假设该字段文本的前六位数字字符为“123456”,预设的数字地址码集合中不存在“123456”。通过将该字段文本的前六位数字字符“123456”与预设的数字地址码集合进行比对,可确定前六位数字字符组成的字符串不存在于预设的数字地址码集合中,进而确定所述字段文本不满足所述格式标签对应的字段规则。

特别地,所述格式标签对应的字段规则的数量可以为一个或者两个以上;若格式标签对应的字段规则的数量为多个,所述标签文本对应的字段文本不满足所述格式标签对应的一个字段规则,则确定所述标签文本对应的字段文本不满足所述格式标签对应的字段规则。

s142,若所述标签文本对应的字段文本不满足所述格式标签对应的字段规则,确定所述图片识别结果为错误结果。

具体地,所述样本图片的数量可以为多个,通过对多个样本图片进行识别,以确定所述图片识别结果,其中图片识别结果包括正确结果以及错误结果。

在一实施例中,如图3所示,步骤s141之后,还可以包括步骤s210。

s210,若所述标签文本对应的字段文本满足所述格式标签对应的字段规则,判断预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据。

具体地,预设的字段数据库包括预先根据样本图片的文本内容人工录入的字段数据。

若所述预设的字段数据库中不存在与所述标签文本对应的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

具体地,若所述预设的字段数据库中不存在与所述标签文本对应的字段文本相同的字段数据,表明该字段文本既不满足所述格式标签对应的字段规则,在预设的字段数据库中也不存在与该字段文本相同的字段数据,进而确定所述图片识别结果为错误结果。

实施本发明实施例,在所述标签文本对应的字段文本满足所述格式标签对应的字段规则的前提下,将所述标签文本对应的字段文本与预设的字段数据库进行比对,判断所述预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据。可将不满足所述格式标签对应的字段规则的字段文本提前确定为识别出现错误,防止因大量字段文本与预设的字段数据库进行比对,以缓解处理终端的数据处理量,有利于提高数据处理效率。同时,还有利于提升对图片识别结果判断的错误率。

在一实施例中,如图4所示,步骤s210之后,还可以包括步骤s310-s320。

s310,若所述预设的字段数据库中存在与所述标签文本对应的字段文本相同的字段数据,在所述文本信息中获取剩余的字段文本。

具体地,假设该样本图片的类型为身份证,该样本图片对应的标签文本以及与所述标签文本对应的字段文本的数量大于两个。在预设的字段数据库中,不同的样本图片对应的字段数据可能存在相同的情况,例如“姓名”对应的文本信息可能存在多个“张三”。为防止因预设的字段数据库中存在相同的字段数据而造成判断结果不准确,进而判断所述预设的字段数据库中是否存在与所述文本信息中剩余的字段文本相同的字段数据。

其中,所述文本信息中剩余的字段文本是指所述文本信息中所述字段文本之外的所有字段文本。例如,所述字段文本为“姓名”对应的文本信息,所述文本信息为“张三”,则所述文本信息中剩余的字段文本指所述文本信息中除“张三”之外的所有字段文本,如“汉”、“1999年6月18日”等等。

s320,判断所述预设的字段数据库中是否存在与所述剩余的字段文本相同的字段数据。

若所述预设的字段数据库中不存在与所述剩余的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

具体地,通过将所述文本信息中剩余的字段文本与所述预设的字段数据库进行比对,以判断所述预设的字段数据库中是否存在与所述文本信息中剩余的字段文本相同的字段数据。若所述预设的字段数据库中不存在与所述文本信息中剩余的字段文本相同的字段数据,表明所述预设的字段数据库中可能存在多个字段数据为“张三”,或者所述文本信息中剩余的字段文本识别出现错误,进而确定所述图片识别结果为错误结果。

在一实施例中,如图5所示,步骤s310之后,还可以包括步骤s410。

s410,若所述预设的字段数据库中存在与所述剩余的字段文本相同的字段数据,判断与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间是否存在预设的字段数据映射关系。

具体地,预设的字段数据映射关系用于同一张样本图片所录入的字段数据之间的映射关系。例如根据同一张身份证样本图片所录入的字段数据包括“张三”、“男”、“1999年6月18日”等等。若所述预设的字段数据库中存在与所述文本信息中剩余的字段文本相同的字段数据,通过判断与所述字段文本以及所述文本信息中剩余的字段文本相同的字段数据之间是否存在预设的字段数据映射关系以确定所述样本识别是否正确。

若与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间不存在预设的字段数据映射关系,确定所述图片识别结果为错误结果。若与所述字段文本以及所述文本信息中剩余的字段文本相同的字段数据之间存在预设的字段数据映射关系,确定所述图片识别结果为正确结果。

具体地,所述预设的字段数据库中存在与所述文本信息中剩余的字段文本相同的字段数据,且与所述字段文本以及所述文本信息中剩余的字段文本相同的字段数据之间存在预设的字段数据映射关系,排除了字段数据库中相同的字段数据对图片识别结果判断的干扰,进而确定所述图片识别结果为正确结果。

s150,根据所述图片识别结果生成图片识别错误率。

具体地,通过对图片识别结果进行统计,以得出图片识别结果为错误结果的错误数量。根据样本图片的总数量以及所述错误数量计算得出片识别错误率。同时,还可将该错误率呈现于显示界面或者通过邮件等方式发送至测试人员,以备测试人员查看,进而可快速获知光学字符识别对样本图片的图片识别结果。

实施本发明实施例,在通过光学字符识别对样本图片的识别过程中,无需人工对图片识别结果进行比对,可自动获取光学字符识别的图片识别结果,进而实现基于光学字符识别的图片识别测试,具有低成本高效率的优点。

图6是本发明实施例提供的一种图片识别测试装置100的示意性框图。如图6所示,对应于以上图片识别测试方法,本发明还提供一种图片识别测试装置100。该图片识别测试装置100包括用于执行上述图片识别测试方法的单元。

具体地,请参阅图6,该图片识别测试装置100包括规则确定单元110、图片识别单元120、信息比对单元130、第一生成单元140以及第二生成单元150。

规则确定单元110,用于根据样本图片的类型确定与所述样本图片对应的格式标签,以及确定与所述格式标签对应的字段规则。

具体地,通过图片采集装置对样本证件进行图像采集以得到样本图片,该样本图片可存储于测试终端中,以备测试时使用。其中测试终端可以为平板电脑、笔记本电脑、台式电脑等电子设备,图片采集装置可以为摄像头、扫描仪等。

样本图片为对样本证件进行图像采集后所得到的图片文件,其中样本证件的类型包括身份证、居住证、营业执照、不动产登记证等等。对应地,不同类型的样本证件对应采集得到不同类型的样本图片,即所述样本图片的类型对应于所述样本证件的类型,如若样本证件的类型为身份证,该样本证件所采集得出的样本图片的类型为身份证。

根据样本图片的类型确定与所述样本图片对应的格式标签具体可通过预设的标签映射关系实现,该预设的标签映射关系用于存储样本图片类型与格式标签的映射关系。例如,假设其中一个预设的标签映射关系具体为“身份证”映射于“姓名”、“性别”、“民族”、“公民身份证号”、“签发机关”,若样本图片的类型为身份证,则可确定与“身份证”对应的格式标签为“姓名”、“性别”、“民族”、“公民身份证号”、“签发机关”。

同理,确定与所述格式标签对应的字段规则可通过预设的规则映射关系实现,该预设的规则映射关系用于存储格式标签与字段规则的映射关系。例如,假设其中一个预设的规则映射关系具体为“公民身份证号”映射于规则一、规则二、规则三、规则四。若格式标签为“公民身份证号”,则可确定与“公民身份证号”对应的字段规则为规则一、规则二、规则三、规则四。需要说明的是,不同的格式标签对应存在不同的字段规则,具体的字段规则可根据实际需求进行设定。

具体实施中,规则一具体为:字段字符为18位的数字字符;规则二具体为:前六位数字字符组成的字符串存在于预设的数字地址码集合中;规则三具体为:第七至第十四位数字字符组成的字符串存在于预设的出生日期码集合中;规则四具体为:最后一位数字是否与根据预设的校验码计算规则计算所得出的数值相同。

其中,预设的数字地址码集合为预先存储于测试终端中的数字地址码集合,用于存储公民身份证号中的数字地址码。该数字地址码例如为“371000”,表示该公民身份证号所对应的行政地区为“威海市”。通过收录全国各个行政地区的数字地址码可建立预设的数字地址码集合。预设的出生日期码集合为预先存储于测试终端中的出生日期码集合,用于存储公民身份证号中的出生日期码,该出生日期码例如为“19990618”,表示该公民身份证号对应的出生提起为1999年6月18日。通过设置出生日期具体的起止日期可建立预设的出生日期码集合,如该预设的出生日期码集合具体可为19000101-20180902。预设的校验码计算规则为iso7064:1983.mod11-2校验码计算法,具体计算方法不在此赘述。

图片识别单元120,用于调用光学字符识别技术对样本图片进行识别,以得出文本信息,所述文本信息包括标签文本以及字段文本。

具体地,光学字符识别技术(opticalcharacterrecognition,ocr)是采用光学的方式将文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式的技术。通过调用光学字符识别技术可实现对样本图片的识别,得出文本信息。

信息比对单元130,用于将所述文本信息与所述格式标签进行比对,以获取与所述格式标签相匹配的标签文本,并确定与所述标签文本对应的字段文本。

具体地,假设该样本图片的类型为身份证,则该样本图片对应的格式标签可包括“姓名”、“性别”、“民族”、“公民身份证号”、“签发机关”等等。若通过光学字符识别技术所识别得到的文本信息为“姓名张三性别男民族汉出生日期1999年6月18日公民身份怔号……”。

若文本信息中存在与格式标签相同的字符串,则确定该字符串为与所述格式标签相匹配的标签文本,同时确定该标签文本与下一标签文本之间的字符串为与该标签文本对应的字段文本。例如,通过将文本信息与格式标签进行比对可知,“姓名”、“性别”、“民族”与格式标签中的“姓名”、“性别”、“民族”相同,则确定文本信息中的“姓名”、“性别”、“民族”分别为与格式标签中的“姓名”、“性别”、“民族”对应的标签文本,同时可确定“姓名”与“性别”之间的字符串“张三”为“姓名”对应的字段文本。

因光学识别技术存在一定的出错率,可能会出现所识别的文本信息出现错误的现象。若文本信息中不存在与格式标签相同的字符串,将文本信息中与格式标签匹配度最高的字符串确定为与所述格式标签相匹配的标签文本。例如,文本信息中的“公民身份怔号”为与格式标签中“公民身份证号”匹配度最高的字符串,则将文本信息中“公民身份怔号”确定为与格式标签中“公民身份证号”对应的标签文本,同时将“公民身份怔号”与下一标签文本之间的字符串确定为与“公民身份怔号”对应的字段文本。

若该标签文本后不存在下一个标签文本,则将该标签文本后的字符串确定为该标签文本对应的字段文本。

第一生成单元140,用于根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果。

具体地,根据所述字段文本所对应的标签文本可确定所述字段文本对应的格式标签,进而根据所述格式标签对应的字段规则以及预设的规则映射关系可确定所述字段文本对应的字段规则。

在一实施例中,如图7所示,所述第一生成单元140包括第一判断单元141以及结果确定单元142。

第一判断单元141,用于判断所述标签文本对应的字段文本是否满足所述格式标签对应的字段规则。

假设该字段文本对应的标签文本为“公民身份怔号”,且该标签文本“公民身份怔号”对应的格式标签为“公民身份证号”,根据预设的规则映射关系可确定格式标签“公民身份证号”对应的字段规则包括规则一、规则二、规则三、规则四。如前所述,规则二具体为:前六位数字字符组成的字符串存在于预设的数字地址码集合中。假设该字段文本的前六位数字字符为“123456”,预设的数字地址码集合中不存在“123456”。通过将该字段文本的前六位数字字符“123456”与预设的数字地址码集合进行比对,可确定前六位数字字符组成的字符串不存在于预设的数字地址码集合中,进而确定所述字段文本不满足所述格式标签对应的字段规则。

特别地,所述格式标签对应的字段规则的数量可以为一个或者两个以上;若格式标签对应的字段规则的数量为多个,所述标签文本对应的字段文本不满足所述格式标签对应的一个字段规则,则确定所述标签文本对应的字段文本不满足所述格式标签对应的字段规则。

结果确定单元142,用于若所述标签文本对应的字段文本不满足所述格式标签对应的字段规则,确定所述图片识别结果为错误结果。

具体地,所述样本图片的数量可以为多个,通过对多个样本图片进行识别,以确定所述图片识别结果,其中图片识别结果包括正确结果以及错误结果。

在一实施例中,如图8所示,所述第一生成单元140还包括第二判断单元210。

第二判断单元210,用于若所述标签文本对应的字段文本满足所述格式标签对应的字段规则,判断预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据。

具体地,预设的字段数据库包括预先根据样本图片的文本内容人工录入的字段数据。

所述结果确定单元142还用于若所述预设的字段数据库中不存在与所述标签文本对应的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

具体地,若所述预设的字段数据库中不存在与所述标签文本对应的字段文本相同的字段数据,表明该字段文本既不满足所述格式标签对应的字段规则,在预设的字段数据库中也不存在与该字段文本相同的字段数据,进而确定所述图片识别结果为错误结果。

实施本发明实施例,在所述标签文本对应的字段文本满足所述格式标签对应的字段规则的前提下,将所述标签文本对应的字段文本与预设的字段数据库进行比对,判断所述预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据。可将不满足所述格式标签对应的字段规则的字段文本提前确定为识别出现错误,防止因大量字段文本与预设的字段数据库进行比对,以缓解处理终端的数据处理量,有利于提高数据处理效率。同时,还有利于提升对图片识别结果判断的错误率。

在一实施例中,所述标签文本以及与所述标签文本对应的字段文本的数量至少为两个,如图9所示,所述第一生成单元140还包括文本获取单元310以及第三判断单元320。

文本获取单元310,用于若所述预设的字段数据库中存在与所述标签文本对应的字段文本相同的字段数据,在所述文本信息中获取剩余的字段文本。

具体地,假设该样本图片的类型为身份证,该样本图片对应的标签文本以及与所述标签文本对应的字段文本的数量大于两个。在预设的字段数据库中,不同的样本图片对应的字段数据可能存在相同的情况,例如“姓名”对应的文本信息可能存在多个“张三”。为防止因预设的字段数据库中存在相同的字段数据而造成判断结果不准确,进而判断所述预设的字段数据库中是否存在与所述文本信息中剩余的字段文本相同的字段数据。

其中,所述文本信息中剩余的字段文本是指所述文本信息中所述字段文本之外的所有字段文本。例如,所述字段文本为“姓名”对应的文本信息,所述文本信息为“张三”,则所述文本信息中剩余的字段文本指所述文本信息中除“张三”之外的所有字段文本,如“汉”、“1999年6月18日”等等。

第三判断单元320,用于判断所述预设的字段数据库中是否存在与所述剩余的字段文本相同的字段数据。

所述结果确定单元142还用于若所述预设的字段数据库中不存在与所述剩余的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

具体地,通过将所述文本信息中剩余的字段文本与所述预设的字段数据库进行比对,以判断所述预设的字段数据库中是否存在与所述文本信息中剩余的字段文本相同的字段数据。若所述预设的字段数据库中不存在与所述文本信息中剩余的字段文本相同的字段数据,表明所述预设的字段数据库中可能存在多个字段数据为“张三”,或者所述文本信息中剩余的字段文本识别出现错误,进而确定所述图片识别结果为错误结果。

在一实施例中,如图10所示,所述第一生成单元140还包括第四判断单元410。

第四判断单元410,用于若所述预设的字段数据库中存在与所述剩余的字段文本相同的字段数据,判断与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间是否存在预设的字段数据映射关系。

具体地,预设的字段数据映射关系用于同一张样本图片所录入的字段数据之间的映射关系。例如根据同一张身份证样本图片所录入的字段数据包括“张三”、“男”、“1999年6月18日”等等。若所述预设的字段数据库中存在与所述文本信息中剩余的字段文本相同的字段数据,通过判断与所述字段文本以及所述文本信息中剩余的字段文本相同的字段数据之间是否存在预设的字段数据映射关系以确定所述样本识别是否正确。

所述结果确定单元142还用于若与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间不存在预设的字段数据映射关系,确定所述图片识别结果为错误结果。若与所述字段文本以及所述文本信息中剩余的字段文本相同的字段数据之间存在预设的字段数据映射关系,确定所述图片识别结果为正确结果。

具体地,所述预设的字段数据库中存在与所述文本信息中剩余的字段文本相同的字段数据,且与所述字段文本以及所述文本信息中剩余的字段文本相同的字段数据之间存在预设的字段数据映射关系,排除了字段数据库中相同的字段数据对图片识别结果判断的干扰,进而确定所述图片识别结果为正确结果。

第二生成单元150,用于根据所述图片识别结果生成图片识别错误率。

具体地,通过对图片识别结果进行统计,以得出图片识别结果为错误结果的错误数量。根据样本图片的总数量以及所述错误数量计算得出片识别错误率。同时,还可将该错误率呈现于显示界面或者通过邮件等方式发送至测试人员,以备测试人员查看,进而可快速获知光学字符识别对样本图片的图片识别结果。

实施本发明实施例,在通过光学字符识别对样本图片的识别过程中,无需人工对图片识别结果进行比对,可自动获取光学字符识别的图片识别结果,进而实现基于光学字符识别的图片识别测试,具有低成本高效率的优点。

上述装置100可以实现为一种计算机程序的形式,计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11,图11是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端。该终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。

该计算机设备500包括通过系统总线510连接的处理器520、存储器和网络接口550,其中,存储器可以包括非易失性存储介质530和内存储器540。

该非易失性存储介质530可存储操作系统531和计算机程序532。该计算机程序532被执行时,可使得处理器520执行一种图片识别测试方法。

该处理器520用于提供计算和控制能力,支撑整个计算机设备500的运行。

该内存储器540为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器520执行时,可使得处理器520执行一种图片识别测试方法。

该网络接口550用于与其它设备进行网络通信。本领域技术人员可以理解,该计算机设备的示意性框图仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器520用于运行存储在存储器中的程序代码,以实现如下功能:根据样本图片的类型确定与所述样本图片对应的格式标签,以及确定与所述格式标签对应的字段规则;调用光学字符识别技术对样本图片进行识别,以得出文本信息,所述文本信息包括标签文本以及字段文本;将所述文本信息与所述格式标签进行比对,以获取与所述格式标签相匹配的标签文本,并确定与所述标签文本对应的字段文本;根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果;根据所述图片识别结果生成图片识别错误率。

在一实施例中,处理器520在执行所述根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果的步骤时,具体执行如下步骤:判断所述标签文本对应的字段文本是否满足所述格式标签对应的字段规则;若所述标签文本对应的字段文本不满足所述格式标签对应的字段规则,确定所述图片识别结果为错误结果。

在一实施例中,处理器520在执行所述判断所述标签文本对应的字段文本是否满足所述格式标签对应的字段规则的步骤之后,具体执行如下步骤:若所述标签文本对应的字段文本满足所述格式标签对应的字段规则,判断预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据;若所述预设的字段数据库中不存在与所述标签文本对应的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

在一实施例中,所述标签文本以及与所述标签文本对应的字段文本的数量至少为两个,处理器520在执行所述判断所述预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据的步骤之后,具体执行如下步骤:若所述预设的字段数据库中存在与所述标签文本对应的字段文本相同的字段数据,在所述文本信息中获取剩余的字段文本;判断所述预设的字段数据库中是否存在与所述剩余的字段文本相同的字段数据;若所述预设的字段数据库中不存在与所述剩余的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

在一实施例中,处理器520在执行所述判断所述预设的字段数据库中是否存在与所述剩余的字段文本相同的字段数据的步骤之后,若所述预设的字段数据库中存在与所述剩余的字段文本相同的字段数据,判断与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间是否存在预设的字段数据映射关系;若与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间不存在预设的字段数据映射关系,确定所述图片识别结果为错误结果。

应当理解,在本发明实施例中,处理器520可以是中央处理单元(centralprocessingunit,cpu),该处理器520还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解,该计算机设备500的示意性框图并不构成对计算机设备500的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

在本发明的另一实施例中提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,其中计算机程序当被处理器执行时实现如下步骤:根据样本图片的类型确定与所述样本图片对应的格式标签,以及确定与所述格式标签对应的字段规则;调用光学字符识别技术对样本图片进行识别,以得出文本信息,所述文本信息包括标签文本以及字段文本;将所述文本信息与所述格式标签进行比对,以获取与所述格式标签相匹配的标签文本,并确定与所述标签文本对应的字段文本;根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果;根据所述图片识别结果生成图片识别错误率。

在一实施例中,所述计算机程序被处理器执行以实现所述根据所述标签文本对应的字段文本以及所述格式标签对应的字段规则生成图片识别结果的步骤时,具体实现如下步骤:判断所述标签文本对应的字段文本是否满足所述格式标签对应的字段规则;若所述标签文本对应的字段文本不满足所述格式标签对应的字段规则,确定所述图片识别结果为错误结果。

在一实施例中,所述计算机程序被处理器执行以实现所述判断所述标签文本对应的字段文本是否满足所述格式标签对应的字段规则的步骤之后,具体实现如下步骤:若所述标签文本对应的字段文本满足所述格式标签对应的字段规则,判断预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据;若所述预设的字段数据库中不存在与所述标签文本对应的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

在一实施例中,所述标签文本以及与所述标签文本对应的字段文本的数量至少为两个,所述计算机程序被处理器执行以实现所述判断所述预设的字段数据库中是否存在与所述标签文本对应的字段文本相同的字段数据的步骤之后,具体实现如下步骤:若所述预设的字段数据库中存在与所述标签文本对应的字段文本相同的字段数据,在所述文本信息中获取剩余的字段文本;判断所述预设的字段数据库中是否存在与所述剩余的字段文本相同的字段数据;若所述预设的字段数据库中不存在与所述剩余的字段文本相同的字段数据,确定所述图片识别结果为错误结果。

在一实施例中,所述计算机程序被处理器执行以实现所述判断所述预设的字段数据库中是否存在与所述剩余的字段文本相同的字段数据的步骤之后,具体实现如下步骤:若所述预设的字段数据库中存在与所述剩余的字段文本相同的字段数据,判断与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间是否存在预设的字段数据映射关系;若与所述标签文本对应的字段文本以及所述剩余的字段文本相同的字段数据之间不存在预设的字段数据映射关系,确定所述图片识别结果为错误结果。

该计算机可读存储介质可以是u盘、移动硬盘、只读存储器(rom,read-onlymemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如一个以上单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1