名片识别方法和装置与流程

文档序号：18467100发布日期：2019-08-17 02:35阅读：220来源：国知局

本发明涉及机器学习技术领域，尤其涉及一种名片识别方法和装置。

背景技术：

随着个人计算机(personalcomputer，简称pc)、移动终端的普及与发展，将纸质名片使用电子信息方式进行存储与检索逐渐成为了主流。但是，将纸质名片转化成电子名片需要耗费较大的人力和物力，因此，自动化地完成这个过程至关重要。

经过不同学者的长期探索与研究，名片识别方法已经存在很多应用的实例，但是，传统的名片识别方法受限于所使用的光学字符识别(opticalcharacterrecognition，简称ocr)技术，在名片图像质量较低，比如存在畸变的情况下，很难进行有效的识别，即识别的准确性较低。

技术实现要素：

本发明提出一种名片识别方法和装置，以实现提升名片识别方法的通用性和识别效果，用于解决现有技术中名片识别的准确性较低的技术问题。

本发明第一方面实施例提出了一种名片识别方法，包括：

获取待识别的名片图像；

将所述名片图像输入至文字检测模型，以得到各文本行区域；其中，所述文字检测模型，已学习得到图像特征与各文本行区域之间的对应关系；

将所述各文本行区域输入至文字识别模型，以得到所述各文本行区域对应的名片信息。

本发明实施例的名片识别方法，通过获取待识别的名片图像；将名片图像输入至文字检测模型，以得到各文本行区域；其中，文字检测模型，已学习得到图像特征与各文本行区域之间的对应关系；将各文本行区域输入至文字识别模型，以得到各文本行区域对应的名片信息。本发明中，基于深度学习的文字检测模型来识别名片图像中的各文本行区域，鲁棒性较强，可以降低因为低质量和噪声数据对文本提取的影响，从而提升该方法的通用性和应用空间。并且，基于深度学习的文字识别模型来对各文本行区域进行端到端的识别，无需进行单字分割，具有更高的准确率，同时也对各种复杂的变化具有更强的识别能力，提升该方法的通用性和识别效果。

本发明第二方面实施例提出了一种名片识别装置，包括：

获取模块，用于获取待识别的名片图像；

文本行区域确定模块，用于将所述名片图像输入至文字检测模型，以得到各文本行区域；其中，所述文字检测模型，已学习得到图像特征与各文本行区域之间的对应关系；

名片信息确定模块，用于将所述各文本行区域输入至文字识别模型，以得到所述各文本行区域对应的名片信息。

本发明实施例的名片识别装置，通过获取待识别的名片图像；将名片图像输入至文字检测模型，以得到各文本行区域；其中，文字检测模型，已学习得到图像特征与各文本行区域之间的对应关系；将各文本行区域输入至文字识别模型，以得到各文本行区域对应的名片信息。本发明中，基于深度学习的文字检测模型来识别名片图像中的各文本行区域，鲁棒性较强，可以降低因为低质量和噪声数据对文本提取的影响，从而提升该方法的通用性和应用空间。并且，基于深度学习的文字识别模型来对各文本行区域进行端到端的识别，无需进行单字分割，具有更高的准确率，同时也对各种复杂的变化具有更强的识别能力，提升该方法的通用性和识别效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例一所提供的名片识别方法的流程示意图；

图2为本发明实施例二所提供的名片识别方法的流程示意图；

图3为本发明实施例三所提供的名片识别方法的流程示意图；

图4为本发明实施例四所提供的名片识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

随着电子名片以及电子设备的普及，使用电子设备记录名片信息已经成为很普遍的现象。然而，将纸质名片录入为电子名片需要耗费大量的时间与精力，因此，自动化地完成这个过程就有着很重要的意义。

目前，主要包括以下三种名片识别方法：

第一种，依赖限定的识别装置，对纸质名片进行图像获取，而后对图像进行版面分析，获取固定位置的各个信息块的图像，对各图像块进行字符分割，之后，调用ocr引擎或单字符分类器进行识别，最后进行信息整合和分类。

第二种，不需要额外的识别装置，通过限制用户输入的图片状态，要求名片图像背景简单，光照均匀，不存在大幅度畸变，通过图像预处理、倾斜校正、版面分析、单字识别以及信息归类的流程进行名片识别。

第三种，使用移动终端进行名片图像获取，通过用户交互的方式来进行名片区域的获取，保证名片图像的质量。之后，通过图像预处理、倾斜校正、版面分析、单字识别以及信息归类的流程进行名片识别。

然而上述三种方式，均需采取基于字符提取和单字符识别，对名片图像的质量有着较高的要求，通用性有限。具体而言，大多数字符分割方法的泛化性能并不够优秀，当名片图像的质量较差、存在较大畸变时，很难获取正确的分割，同时，大多数单字符的识别方法对于存在变形的文字识别效果也不够理想。

随着移动终端的普及，使用手机等可移动设备进行名片拍照成为了名片识别的一个较为主要的使用场景，这带来的结果就是所接受的图像质量变得更加复杂多样，字符图像由于对焦、光照等拍摄因素而产生较大程度的失真与噪声。在这种使用场景下，较为传统的名片识别方法已经不能具有很好的表现。

随着深度学习技术的不断发展，图像识别技术有了长足的进步，其中，在文字识别领域，端到端的文本行识别，相比传统的基于文字分割的单字识别方法在精度、泛化性能上都有了较大的提高，此外，在文字检测任务上，基于深度学习的方法也比基于连通域提取的方法，在各个方法也都具备着较高的优势。因此，本发明针对现有技术中度量学习中名片识别效果不佳的技术问题，主要利用基于深度学习的文字检测技术，对名片图像内的可能存在变形、模糊等多种恶劣情况下的文本行进行了提取，之后利用基于深度学习的文字识别方法，对提取的各文本行进行了端到端的识别，最后，利用预设规则，对识别出的名片信息进行整合与归类，以提升识别结果的准确性。并且，无需进行版面分析，可以缩短处理流程，提升名片识别的效率。

下面参考附图描述本发明实施例的名片识别方法和装置。

图1为本发明实施例一所提供的名片识别方法的流程示意图。

本发明实施例以名片识别方法被配置于名片识别装置中来举例说明，该名片识别装置可以应用于任一计算机设备中，以使该计算机设备可以执行名片识别功能。

其中，计算机设备可以为个人电脑(personalcomputer，简称pc)、云端设备、移动设备、服务器等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该名片识别方法可以包括以下步骤：

步骤101，获取待识别的名片图像。

本发明实施例中，待识别的名片图像，可以是通过手机、相机等具有拍照功能的电子设备拍摄得到的名片图像，或者，也可以是预先存储在计算机设备中的名片图像，或者，也可以是从服务器下载的名片图像，等等，对此不作限制。

步骤102，将名片图像输入至文字检测模型，以得到各文本行区域；其中，文字检测模型，已学习得到图像特征与各文本行区域之间的对应关系。

本发明实施例中，文字检测模型是预先经过训练的，该文字检测模型已学习得到图像特征与各文本行区域之间的对应关系。具体地，在训练阶段，可以预先获取大量训练样本图像，该训练样本图像可以包括采集的真实名片图像和/或通过程序生成的名片图像。在获取训练样本图像后，可以对训练样本图像中的文本行区域、文本行位置进行标注，利用标注后的训练样本图像，对初始的深度学习模型进行训练，得到文字检测模型。

本发明实施例中，在获取到待识别的名片图像后，可以将名片图像输入至文字检测模型，得到各文本行区域。具体地，在预测阶段，可以将名片图像输入至文字检测模型进行正向传播，名片图像经由骨干网络进行特征提取，之后由模型生成提取的图像特征中不同位置的建议区域，并对建议区域进行建议框回归，得到可能的文本行区域，本发明中记为候选文本行区域，之后，模型根据配置好的先验知识，对所有候选文本行区域进行筛选，以剔除非文本行区域，从而输出各文本行区域。

需要说明的是，现有技术中在进行文字检测时依赖图像的质量，为了保证传统方法提取文字有效，往往需要控制输入图像的质量，或使用限定设备，或设定拍摄图像的诸多限定条件，这些限制造成了名片识别方法的通用性和易用性的下降。而本发明的名片识别方法，通过使用基于深度学习的文字检测模型来提取名片图像中的文本行区域，这种方法鲁棒性强，可以降低因为低质量和各种噪声情况对文字提取的影响，从而使得该方法相比于现有技术具有更强的通用性和更广泛的应用空间。

步骤103，将各文本行区域输入至文字识别模型，以得到各文本行区域对应的名片信息。

本发明实施例中，名片信息，可以包括文本行区域中的姓名、工作地点、职位、联系方式等文字信息。

本发明实施例中，文字识别模型是预先经过训练的，具体地，在训练阶段，可以利用不同的字体、字形以及畸变的规则，生成样本图像，同时，也可以通过采集样本图像作为补充，以微调模型，之后，可以对生成的样本图像和采集的样本图像中的文字进行标注，利用标注后的样本图像，对初始的深度学习模型进行训练，可以得到文字识别模型。

本发明实施例中，文字识别模型采取特征提取-序列建模的模型框架，在训练阶段，文字识别模型在处理每一个样本图像时，均会进行特征提取，然后利用序列模型进行预测，根据样本图像的标注信息，计算损失，并利用梯度下降法进行模型参数调整，以完整模型的训练过程。

在预测阶段，将步骤102得到的各文本行区域作为输入，各文本行区域经由骨干网络进行特征提取后，会进入文字识别模型进行序列建模，最后输出各文本行区域对应的文本序列，本发明中记为名片信息。

需要说明的是，现有技术中在进行名片内文字的识别时，同样不能很好的适应可能存在的各种畸变情况，导致了名片识别方法的通用性能下降。而本发明的名片识别方法，通过使用基于深度学习的文字识别模型，来对名片中的文本行区域进行端到端的识别，这种方法无需进行单字分割，具有更高的准确率，同时也对各种复杂的变化具有更强的识别能力，从而使得该方法相比现有技术在通用性和识别效果上具有较大的优势。

作为一种可能的实现方式，为了提升识别结果的准确性，在获取到待识别的名片图像之后，还可以对名片图像进行预处理。下面结合实施例二，对上述过程进行详细说明。

图2为本发明实施例二所提供的名片识别方法的流程示意图。

如图2所示，该名片识别方法可以包括以下步骤：

步骤201，获取待识别的名片图像。

步骤201的执行过程可以参见上述实施例中步骤101的执行过程，在此不做赘述。

步骤202，对名片图像进行预处理，其中，预处理包括名片区域的提取、去噪、倾斜校正、透视校正处理中的至少一项。

需要说明的是，由于待识别的名片图像的四周可能存在复杂背景区域，这些背景区域对名片识别存在很大干扰。例如，使用手机拍摄得到的待识别的名片图像时，为了获得完整的名片信息，拍摄的照片除了名片本身外，四周可能存在复杂的背景区域。如果直接使用复杂背景的待识别的名片图像进行识别，可能导致识别效果严重下降，难以达到应用水平。由此，需要对复杂背景拍摄的待识别的名片图像进行背景分离，分离出名片区域和背景区域，摆脱了对场景和图像获取设备的依赖，使得名片识别方法具有更强的通用性。

作为一种可能的实现方式，可以采用基于深度神经网络的图像语义分割技术，对放缩大小后的待识别的名片图像进行像素级别的分割，即进行背景分离，以划分出名片区域和背景区域。进一步的，将放缩后的分割图进行等比例还原，即可获取提取后的名片区域。

同时，由于拍摄时对焦、光照等拍摄因素导致拍摄的待识别的名片图像存在较大程度的失真与噪声。因此，本发明中，还可以对名片图像进行去噪处理、倾斜校正处理、透视校正处理等等。

步骤203，将名片图像输入至文字检测模型，以得到各文本行区域；其中，文字检测模型，已学习得到图像特征与各文本行区域之间的对应关系。

步骤204，将各文本行区域输入至文字识别模型，以得到各文本行区域对应的名片信息。

步骤203至204的执行过程可以参见上述实施例中步骤102至103的执行过程，在此不做赘述。

本发明实施例中，通过对待识别的名片图像进行预处理，其中，预处理包括提取名片区域、去噪、倾斜校正、透视校正中的至少一项，由此，可以提升名片识别结果的准确性。

作为一种可能的实现方式，参见图3，在图1和图2所示实施例的基础上，该名片识别方法还可以包括以下步骤：

步骤301，对名片信息进行校正后，识别校正后的名片信息所包含的信息类型。

本发明实施例中，识别到的名片信息中可能会存在格式错误、信息错误等现象，因此需要对名片信息进行校正，以识别校正后的名片信息所包含的信息类型。

作为一种可能的实现方式，可以采用多种正则规则，对名片信息进行校正，例如，可以采用正则表达式匹配替换的方式，对名片信息中常见的错误进行校正，比如名片信息中数字与字母之间的混淆，特殊字符与字母之间的混淆等。同时，还可以利用正则表达式匹配替换的方式，对名片信息的格式进行规范化。由此，通过对名片信息进行校正，能够提高名片识别的准确度。

举例来说，名片信息中的数字“9”可能会被误识别为字母“q”，字母“l”可能会被误识别为数字“1”，数字“0”误识别为字母“o”等，这种情况下，可以采用正则表达式匹配替换的方式，将一些常见的错误校正过来。

本发明实施例中，在对名片信息进行校正后，可以识别校正后的名片信息所包含的信息类型，例如，可以根据分类规则，对校正后的名片信息进行信息类型的分类，以识别校正后的名片信息所包含的信息类型。

需要说明的是，对校正后的名片信息进行信息类型的分类时，分类规则包括但不限于关键词匹配、文本位置关系等。分类规则可以灵活定制、添加、删除。由此，可以得到包含校正后的名片信息所有类型的信息类型。

举例来说，可以根据文本位置关系识别校正后的名片信息所包含的信息类型，例如，名片中的姓名、地址、联系方式、公司名称等。例如，非结构化文本行为“姓名：张三”，应该提取出的文字信息为“张三”，所属类别为“姓名”。

步骤302，获取校正后的名片信息中与信息类型对应的信息片段。

本发明实施例中，由于不同信息类型对应的信息片段不同，因此，需要获取校正后的名片信息中与信息类型对应的信息片段。

举例来说，信息类型为电话号码时，对应的信息片段可以为电话号码对应的数字；信息类型为地址时，对应的信息片段为地址后面对应的字符信息等。

步骤303，根据信息类型对信息片段进行分类存储。

本发明实施例中，获取到校正后的名片信息中与信息类型对应的信息片段后，可以将信息片段分类存储至计算机设备，由此，可以得到以便对识别到的名片信息，即结构化的电子名片数据进行存储与操作。

在一种可能的场景下，在根据信息类型对信息片段进行分类存储时，可以根据存储的位置对信息片段进行筛选，例如，将信息片段存入通讯录时，并不是所有的信息均需要存储，可以根据信息片段的内容中包含一些关键词对信息片段进行存储，例如“姓名”、“联系方式”和“地址”，若预设的关键词为“姓名”、“联系方式”和“地址”，则可以提取这些关键词后面的具体内容，将其对应的信息片段存储至通讯录的“姓名”、“联系方式”和“地址”字段中。

本发明实施例中，通过对名片信息进行校正后，识别校正后的名片信息所包含的信息类型，获取校正后的名片信息中与信息类型对应的信息片段，根据信息类型对信息片段进行分类存储。该方法通过对识别到的名片信息进行校正，提高了名片识别的准确度，并根据校正后名片信息所包含的信息类型，准确地找到名片信息中的有效信息，对有效信息进行存储，去除了一些不需要存储的内容。

为了实现上述实施例，本发明还提出一种名片识别装置。

图4为本发明实施例四所提供的名片识别装置的结构示意图。

如图4所示，该名片识别装置可以包括：获取模块110、文本行区域确定模块120以及名片信息确定模块130。

其中，获取模块110，用于获取待识别的名片图像。

文本行区域确定模块120，用于将名片图像输入至文字检测模型，以得到各文本行区域；其中，文字检测模型，已学习得到图像特征与各文本行区域之间的对应关系。

名片信息确定模块130，用于将各文本行区域输入至文字识别模型，以得到各文本行区域对应的名片信息。

进一步地，在本发明实施例的一种可能的实现方式中，该名片识别装置还可以包括：

预处理模块，用于对名片图像进行预处理，其中，预处理包括名片区域的提取、去噪、倾斜校正、透视校正处理中的至少一项。

作为一种可能的实现方式，文字检测模型，通过以下模块进行训练：

获取模块110，还用于获取训练样本图像。

标注模块，用于对训练样本图像中的文本行位置进行标注。

训练模块，用于利用标注后的训练样本图像，对初始的深度学习模型进行训练，得到文字检测模型。

作为一种可能的实现方式，文本行区域确定模块120，具体用于：通过文字检测模型，对名片图像进行特征提取；生成提取的图像特征中不同位置对应的建议区域；对建议区域进行候选框回归，得到候选文本行区域；对候选文本行区域进行筛选，以剔除非文本行区域。

作为一种可能的实现方式，文字识别模型，通过以下模块进行训练：

生成模块，用于利用不同的字体、字形以及畸变的规则，生成样本图像。

标注模块，还用于对样本图像中的文字进行标注。

训练模块，还用于利用标注后的样本图像，对初始的深度学习模型进行训练，得到文字识别模型。

识别模块，用于对名片信息进行校正后，识别校正后的名片信息所包含的信息类型。

获取模块，还用于获取校正后的名片信息中与信息类型对应的信息片段。

存储模块，用于根据信息类型对信息片段进行分类存储。

需要说明的是，前述对名片识别方法实施例的解释说明也适用于该实施例的名片识别装置，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：欧中洪;熊柏桥;肖芬瑞;宋美娜;宋俊德
技术所有人：北京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。