一种基于OCR识别的试剂信息录入方法及装置与流程

文档序号:18872007发布日期:2019-10-14 19:46阅读:293来源:国知局
一种基于OCR识别的试剂信息录入方法及装置与流程

本发明涉及人工神经网络领域,尤其涉及一种基于ocr识别的试剂信息录入方法及装置。



背景技术:

库存管理是当前大部分单位都面临的一项工作,大到各类生产企业,销售厂商,小到大量小型创业单位,都会存在库存管理的需求,如各种规格类型的生产原料,各种办公耗材的库存管理等。然而,高校实验室或各种研究单位所使用的化学试剂的管理,则是库存管理中的一个比较特殊的类型。究其原因,主要在于化学试剂普遍存在一定的危险性,甚至有很多是易制毒,剧毒或者是易制爆等,因此对试剂管理的精细度有较高的要求。

在实际的试剂管理中,为了实现试剂的精细化管理,如能够追踪到试剂从采购到使用到报废的全部生命周期信息,比如谁采购的,为什么项目采购的,谁使用的,使用的量,剩余的试剂的去向等,就需要库存管理能精确地记录试剂的详细信息。因此,试剂在进入库存系统(后续称为入库操作)的时候,就需要详细录入试剂的完整信息,如试剂名称,纯度,当前量,供应商等。

相关技术中,试剂信息入库主要包括以下几种实现方式:1)手动录入,即根据到货的试剂信息,通过人工查看和录入的方式,将试剂信息录入系统;2)将采购信息转为库存信息,即用户在采购试剂的时候,必须要提供一部分试剂的信息,比如名称,所需的规格,纯度等,可以将采购系统中的这部分信息作为入库信息;3)要求供应商提供货物信息,即用户在采购试剂的时候,可以要求供应商提供相应的商品信息,入库的时候可以将这些信息导入系统。

然而,上述几种试剂信息入库实现方式存在如下不足之处:1)手动录入的方式效率比较低,并且手工录入过程中,出错的可能性比较大;2)存在采购到货的试剂与提交采购请求时录入的试剂信息并不一致,比如包装规格,比如供应商等,导致需要重新修改信息后入库的问题;3)供应商可能不一定会提供电子版的文件,提供的信息,一般也无法直接导入库存系统,需要对数据进行处理后才能导入。



技术实现要素:

本发明实施例为了解决上述提及的现有试剂信息入库实现方式所存在的种种问题,创造性的提供一种基于ocr识别的试剂信息录入方法及装置。

根据本发明实施例第一方面,提供一种基于ocr识别的试剂信息录入方法,该方法包括:检测待入库试剂的试剂标签是否对准图像采集单元,得到检测结果;若所述检测结果为试剂标签已对准图像采集单元,则通过所述图像采集单元采集对应试剂标签的图像;对所采集的对应试剂标签的图像进行ocr识别,得到对应试剂标签的文本内容;对所得到的对应试剂标签的文本内容进行分类预测,得到分类预测结果;根据所述分类预测结果录入所述待入库试剂的试剂信息。

根据本发明一实施方式,所述对所采集的对应试剂标签的图像进行ocr识别之前,所述方法还包括:对所采集的对应试剂标签的图像进行图像预处理;其中,所述图像预处理包括如下处理操作至少之一:调整图像分辨率或调整图像的旋转方向。

根据本发明一实施方式,所述检测待入库试剂的试剂标签是否对准图像采集单元,包括:检测待入库试剂的试剂标签的关键信息区域是否对准图像采集单元的中心采集区域。

根据本发明一实施方式,所述对所采集的对应试剂标签的图像进行ocr识别,得到对应试剂标签的文本内容,包括:将所采集的对应试剂标签的图像作为一个整体进行ocr识别,得到至少包括一个文本字段的ocr识别结果;将所得到的至少包括一个文本字段的ocr识别结果整体作为对应试剂标签的文本内容。

根据本发明一实施方式,对所得到的对应试剂标签的文本内容进行分类预测,得到分类预测结果,包括:对所得到的对应试剂标签的文本内容进行分词处理,得到分词处理结果;利用分类预测模型对所述分词处理结果中每一个分词进行属性类别预测,以得到分类预测结果,所述分类预测结果包括每一个分词对应属性类别。

根据本发明一实施方式,所述方法还包括:根据所述分类预测结果确定每一个分词对应属性类别的概率值;将所有分词对应属性类别的概率值中最高的属性类别确定为最终分类预测结果。

根据本发明一实施方式,根据所述分类预测结果录入所述待入库试剂的试剂信息,包括:利用所有分词对应属性类别的概率值中最高的属性类别的全称替换对应的分词的方式来录入所述待入库试剂的试剂信息。

根据本发明一实施方式,根据所述分类预测结果录入所述待入库的试剂信息之后,所述方法还包括:根据所录入的试剂信息生成用于标识待入库试剂的码形标签。

根据本发明实施例第二方面,还提供一种基于ocr识别的试剂信息录入装置,该装置包括:检测单元,用于检测待入库试剂的试剂标签是否对准图像采集单元,得到检测结果;所述图像采集单元,用于若所述检测结果为试剂标签已对准,则采集对应试剂标签的图像;ocr识别单元,用于对所采集的对应试剂标签的图像进行ocr识别,得到对应试剂标签的文本内容;分类预测单元,用于对所得到的对应试剂标签的文本内容进行分类预测,得到分类预测结果;信息录入单元,用于根据所述分类预测结果录入所述待入库试剂的试剂信息。

根据本发明一实施方式,所述装置还包括图像预处理单元,用于在通过ocr识别单元对所采集的对应试剂标签的图像进行ocr识别之前,对所采集的对应试剂标签的图像进行图像预处理;其中,所述图像预处理包括如下处理操作至少之一:调整图像分辨率或调整图像的旋转方向。

根据本发明一实施方式,所述检测单元具体用于,检测待入库试剂的试剂标签的关键信息区域是否对准图像采集单元的中心采集区域。

根据本发明一实施方式,所述ocr识别单元具体用于,将所采集的对应试剂标签的图像作为一个整体进行ocr识别,得到至少包括一个文本字段的ocr识别结果;将所得到的至少包括一个文本字段的ocr识别结果整体作为对应试剂标签的文本内容。

根据本发明一实施方式,所述分类预测单元具体用于,对所得到的对应试剂标签的文本内容进行分词处理,得到分词处理结果;利用分类预测模型对所述分词处理结果中每一个分词进行属性类别预测,以得到分类预测结果,所述分类预测结果包括每一个分词对应属性类别。

根据本发明一实施方式,所述分类预测单元还用于,根据所述分类预测结果确定每一个分词对应属性类别的概率值;将所有分词对应属性类别的概率值中最高的属性类别确定为最终分类预测结果。

根据本发明一实施方式,所述信息录入单元具体用于,利用所有分词对应属性类别的概率值中最高的属性类别的全称替换对应的分词的方式来录入所述待入库试剂的试剂信息。

根据本发明一实施方式,所述装置还包括生成单元,用于根据所录入的试剂信息生成用于标识待入库试剂的码形标签。

本发明实施例基于ocr识别的试剂信息录入方法及装置,首先检测待入库试剂的试剂标签是否对准图像采集单元,得到检测结果;接着若所述检测结果为试剂标签已对准图像采集单元,则通过所述图像采集单元采集对应试剂标签的图像;对所采集的对应试剂标签的图像进行ocr识别,得到对应试剂标签的文本内容;进一步对所得到的对应试剂标签的文本内容进行分类预测,得到分类预测结果;最后根据所述分类预测结果录入所述待入库试剂的试剂信息。如此,本发明通过ocr识别加人工智能的方式,省掉了之前试剂入库过程中的手工操作,整个过程全部由系统自动完成,极大缩短了操作时间,从而较大程度上提高入库效率。这样,由于入库效率的提高,试剂管理所需的人员得到缩减,而且自动化的试剂入库过程,通过移动端的应用程序自动填写,操作过程非常简单,无需专业的化学知识即可完成,降低了库管人员的要求,因此可以降低化学试剂管理的成本。

需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例基于ocr识别的试剂信息录入方法的实现流程示意图;

图2示出了本发明一应用实例基于ocr识别的试剂信息录入的具体操作流程示意图;

图3示出了本发明实施例基于ocr识别的试剂信息录入装置的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明实施例基于ocr识别的试剂信息录入方法的实现流程示意图;图2示出了本发明一应用实例基于ocr识别的试剂信息录入的具体操作流程示意图。

参考图1,本发明实施例基于ocr识别的试剂信息录入方法包括:操作101,检测待入库试剂的试剂标签是否对准图像采集单元,得到检测结果;操作102,若所述检测结果为试剂标签已对准图像采集单元,则通过所述图像采集单元采集对应试剂标签的图像;操作103,对所采集的对应试剂标签的图像进行ocr识别,得到对应试剂标签的文本内容;操作104,对所得到的对应试剂标签的文本内容进行分类预测,得到分类预测结果;操作105,根据所述分类预测结果录入所述待入库试剂的试剂信息。

参考图2,在操作101~102,在前端界面通过移动设备的图像采集单元(如相机模块)将需要识别的试剂标签拍成图像,并在设备中存储。由于大部分试剂瓶是圆形的,试剂标签即标签纸贴在瓶子上,会以弧形的方式呈现,因此可能无法把全部试剂标签都拍摄下来,或者即使拍摄下来了,两侧部分的文字,也会出现较为严重的形变,不利于文字识别。因此,具体地图像采集时,先检测待入库试剂的试剂标签对准图像采集单元,之后通过所述图像采集单元采集对应试剂标签的图像。

根据本发明一实施方式,在操作101中,可以检测待入库试剂的试剂标签的关键信息区域是否对准图像采集单元的中心采集区域。即在图像采集的时候,将关键信息区域作为拍摄的中心采集区域,使得关键信息能清晰,无变形地呈现在照片中。这里关键信息主要为“名称”,“cas号”,“规格”,“纯度”等信息;相应的,关键信息区域主要包括名称区域,cas号区域,规则区域,纯度区域等。

根据本发明一实施方式,在操作103之前,可以先对所采集的对应试剂标签的图像进行图像预处理;其中,所述图像预处理包括如下处理操作至少之一:调整图像分辨率或调整图像的旋转方向。具体地,对应试剂标签的图像存储在移动设备中后,为满足后续对图像进行传输、存储和识别的要求,需要对图像进行一定的处理,包括调整图像分辨率至合适大小或调整图像的旋转方向。

在操作103,参考图2,将上一步处理好的图像,提交至对图像进行ocr识别的功能接口,通过文本识别的算法,将图像中所有能识别的内容识别成文本字段,并将对应试剂标签的文本内容返回移动端。

在实际操作中,操作103无需将图像按区域划分并对各区域做不同处理,而只需将图像作为一个整体传输至文本识别接口,并将获得的全部文本传回即可。因此,根据本发明一实施方式,操作103具体可以将所采集的对应试剂标签的图像作为一个整体进行ocr识别,得到至少包括一个文本字段的ocr识别结果;将所得到的至少包括一个文本字段的ocr识别结果整体作为对应试剂标签的文本内容。

这里,通过操作103从图像中识别出来的文本内容,可能包括中文,英文,数字,其对应的含义也各不相同,如有试剂的中英文名称,试剂的品牌、包装规格,有供应商的名称,有生产厂商的信息等。

本发明操作104对文本内容做分类预测的目的,就是将其识别出来的文字,将其划分成词语,然后推测词语可能对应的真实含义。因此首先需要建立词语类别分析的分类预测模型,此处使用卷积神经网络(cnn)的方式,建立了对输入的词语进行类别分析的分类预测模型模型,使得输入一个词语后,能判断这个词语属于试剂信息中的哪个属性。

根据本发明一实施方式,在操作104,可以对所得到的对应试剂标签的文本内容进行分词处理,得到分词处理结果;利用分类预测模型对所述分词处理结果中每一个分词进行属性类别预测,以得到分类预测结果,所述分类预测结果包括每一个分词对应属性类别。

参考图2,本发明应用实例通过人工智能神经网络(cnn)的技术,建立文本信息分类的模型,经过模型的调整和训练后,识别的准确率达到90%以上,因此将图片中识别出的文字,一次性地判断出多个属性的字段,以便准确的填写到相应属性的字段中,完成入库信息的自动化填写,并直接通过手机就可以连接打印机,打印标签。

根据本发明一实施方式,操作104还包括,根据所述分类预测结果确定每一个分词对应属性类别的概率值;将所有分词对应属性类别的概率值中最高的属性类别确定为最终分类预测结果。在此过程中,由于需要识别试剂的多个属性,包括试剂的名称,化合物的cas号,规格,纯度,供应商等,因此需要判断每个文本属于某个属性的可能性,取其中可能性最高的一个作为最终的预测结果。

进一步地,根据所述分类预测结果录入所述待入库试剂的试剂信息,包括:利用所有分词对应属性类别的概率值中最高的属性类别的全称替换对应的分词的方式来录入所述待入库试剂的试剂信息。即设备还会通过一些判断规则,对预测结果做一次智能的调整,如对供应商名称进行补充,在识别到供应商名称中的关键词后,对将其调整为供应商的全称,从而获得更准确的结果。

在操作105,通过上述分类预测模型将图片中识别出来的文本进行属性分类后,即可将词语自动填入入库信息中对应的输入框中。当然在实际应用中,用户可根据试剂的真实信息,对系统自动填入的数据做判断和修改,然后将信息做入库操作。在所采集的图像信息比较清晰,识别准确率比较高的情况下,用户无需修改信息,即可直接入库。

根据本发明一实施方式,在操作105之后,所述方法还包括:根据所录入的试剂信息生成用于标识待入库试剂的码形标签。具体地,入库信息填写完整后,系统会自动生成每个试剂对应的唯一性条码,即码形标签,并且可以通过移动设备直接连接打印机,将其标签打印出来,贴在试剂瓶上。

本发明实施例基于ocr识别的试剂信息录入方法,首先检测待入库试剂的试剂标签是否对准图像采集单元,得到检测结果;接着若所述检测结果为试剂标签已对准图像采集单元,则通过所述图像采集单元采集对应试剂标签的图像;对所采集的对应试剂标签的图像进行ocr识别,得到对应试剂标签的文本内容;进一步对所得到的对应试剂标签的文本内容进行分类预测,得到分类预测结果;最后根据所述分类预测结果录入所述待入库试剂的试剂信息。如此,本发明通过ocr识别加人工智能的方式,省掉了之前试剂入库过程中的手工操作,整个过程全部由系统自动完成,极大缩短了操作时间,从而较大程度上提高入库效率。这样,由于入库效率的提高,试剂管理所需的人员得到缩减,而且自动化的试剂入库过程,通过移动端的应用程序自动填写,操作过程非常简单,无需专业的化学知识即可完成,降低了库管人员的要求,因此可以降低化学试剂管理的成本。

基于上文所提及的基于ocr识别的试剂信息录入方法,本发明实施例又提供一种基于ocr识别的试剂信息录入装置,如图3所示,该装置30包括:检测单元301,用于检测待入库试剂的试剂标签是否对准图像采集单元302,得到检测结果;所述图像采集单元302,用于若所述检测结果为试剂标签已对准,则采集对应试剂标签的图像;ocr识别单元303,用于对所采集的对应试剂标签的图像进行ocr识别,得到对应试剂标签的文本内容;分类预测单元304,用于对所得到的对应试剂标签的文本内容进行分类预测,得到分类预测结果;信息录入单元305,用于根据所述分类预测结果录入所述待入库试剂的试剂信息。

根据本发明一实施方式,所述装置30还包括图像预处理单元,用于在通过ocr识别单元303对所采集的对应试剂标签的图像进行ocr识别之前,对所采集的对应试剂标签的图像进行图像预处理;其中,所述图像预处理包括如下处理操作至少之一:调整图像分辨率或调整图像的旋转方向。

根据本发明一实施方式,所述检测单元301具体用于,检测待入库试剂的试剂标签的关键信息区域是否对准图像采集单元的中心采集区域。

根据本发明一实施方式,所述ocr识别单元303具体用于,将所采集的对应试剂标签的图像作为一个整体进行ocr识别,得到至少包括一个文本字段的ocr识别结果;将所得到的至少包括一个文本字段的ocr识别结果整体作为对应试剂标签的文本内容。

根据本发明一实施方式,所述分类预测单元304具体用于,对所得到的对应试剂标签的文本内容进行分词处理,得到分词处理结果;利用分类预测模型对所述分词处理结果中每一个分词进行属性类别预测,以得到分类预测结果,所述分类预测结果包括每一个分词对应属性类别。

根据本发明一实施方式,所述分类预测单元304还用于,根据所述分类预测结果确定每一个分词对应属性类别的概率值;将所有分词对应属性类别的概率值中最高的属性类别确定为最终分类预测结果。

根据本发明一实施方式,所述信息录入单元305具体用于,利用所有分词对应属性类别的概率值中最高的属性类别的全称替换对应的分词的方式来录入所述待入库试剂的试剂信息。

根据本发明一实施方式,所述装置30还包括生成单元,用于根据所录入的试剂信息生成用于标识待入库试剂的码形标签。

这里需要指出的是:以上对基于ocr识别的试剂信息录入装置实施例的描述,与前述图1所示的方法实施例的描述是类似的,具有同前述图1所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对基于ocr识别的试剂信息录入装置中未披露的技术细节,请参照本发明前述图1所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于运算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个运算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该运算机软件产品存储在一个存储介质中,包括若干指令用以使得一台运算机设备(可以是个人运算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1