一种文字识别方法及装置的制造方法

文档序号：9376207阅读：543来源：国知局

一种文字识别方法及装置的制造方法
【技术领域】
[0001] 本申请涉及计算机技术领域，尤其涉及一种文字识别方法及装置。
【背景技术】
[0002] 随着计算机技术的发展，文字识别技术应运而生，通过这种技术，设备可以将图像中的文字识别出来，将文字识别技术应用于非数字化信息的录入就可以显著提高非数字化信息的录入效率。一般方法是，采集非数字化信息的图像，再利用文字识别技术识别图像中的文字，以获得信息并录入。显然，采用文字识别技术对非数字化信息进行录入时，文字识别的精度是决定录入信息的准确性的一个重要因素。
[0003] 其中，利用文字识别技术识别图像中的文字的核心思想主要是：将图像中待识别文字输入光学字符识别（Optical Character Recognition, OCR)引擎，OCR引擎提取输入的待识别文字的特征，并将提取的特征与预先保存在模板库中的每个标准文字的特征进行比对，以确定提取的特征与每个标准文字的特征的相似度，将相似度最高的标准文字确定为该待识别文字。
[0004] 然而，在实际应用场景中，存在着诸多特征较为相似的文字，如"区"和"凶"，"剁" 和"刹"等。受采集图像的清晰度、倾斜度等影响，这些特征较为相似的文字往往会存在误识别的情况。例如，本应为"地址：朝阳区"的文字，很有可能会由于图像倾斜度的影响而被误识别为"地址：朝阳凶"。因此，为了提高文字识别的精度，在现有技术中，可根据与待识别文字的特征的相似度较高的若干个标准文字，结合预设的校正模型，对待识别文字进行识别。
[0005] 具体的，针对文字行中的第i个待识别文字，确定该第i个待识别文字的备选文字，针对确定的每个备选文字，根据已识别出的第i-Ι个文字(第i-Ι个文字是该第i个文字的前一个文字）以及预设的校正模型，确定在该第i-Ι个文字的条件下，该第i个待识别文字是该备选文字的后验概率，将后验概率最大的备选文字确定为识别出的该第i个待识别文字。
[0006] 例如，假设从图像中提取出的文字行中的实际文字是"朝阳区"，则在对该文字行中的这三个字进行识别时，可按照从左到右的顺序依次进行识别。假设前两个字("朝"和 "阳"）识别出来后，在对第3个字进行识别时，可根据该第3个字的特征，确定与该第3个字的特征的相似度较大的标准文字为"区"和"凶"，因此，将"区"和"凶"这两个字作为第 3个字的备选文字。由于识别出的第2个字是"阳"，则可根据已识别出的第2个字"阳"，以及预设的校正模型，分别确定P(c 3,g ku)和P(C3 j 1?阳），其中，P(c3,g Ic2^)表示在第2个字是"阳"的条件下，第3个字是"区"的后验概率，P(c3j 1? w)表示在第2个字是 "阳"的条件下，第3个字是"凶"的后验概率。假设根据校正模型，确定P(c 3ig|c2j)大于 P (? M I 4 w )，则将备选文字"区"确定为识别出的该第3个字。
[0007] 但是，在现有技术中，上述预设的校正模型是对出现在实际生活中的各种词汇的词频进行统计得到的，对于一个词汇而言，该词汇在实际生活中出现的词频越高，则在该词汇中前一个字的条件下，该词汇中后一个字的后验概率越大，上述预设的校正模型也可称之为通用校正模型。而对于某些特殊的应用场景而言，上述通用校正模型并不适用。
[0008] 例如，假设文字行中第i_l个字被识别为"应"，在识别第i个字时，确定该第i个字的备选文字为"该"和"收"，则由于通用校正模型是对出现在实际生活中的词汇的词频进行统计得到的，而在实际生活中，词汇"应该"出现的词频显然要远大于词汇"应收"，因此，通用校正模型会认为在第i-Ι个字为"应"的条件下，第i个字为"该"的后验概率大于"收" 的后验概率，从而将第i个字识别为"该"。
[0009] 在上例中，如果文字行是从报纸、刊物等文件的图像中提取出的，则得到的识别结果基本可以认为是正确的，但是如果文字行是从收据、购物小票等单据的图像中提取出的，则显然识别结果为"应收"的可能性应该更大。
[0010] 可见，在特殊的应用场景中，采用通用校正模型并不能准确的识别出符合该特殊应用场景的文字，导致文字识别的精度较低。

【发明内容】

[0011] 本申请实施例提供一种文字识别方法及装置，用以解决现有技术在特殊应用场景中识别文字的精度较低的问题。
[0012] 本申请实施例提供的一种文字识别方法，包括：
[0013] 根据待识别文字的特征，确定所述待识别文字的备选文字；
[0014] 针对每个备选文字，根据已识别的所述待识别文字的前一个文字，采用特殊校正模型确定所述待识别文字是该备选文字的特殊后验概率；其中，所述特殊校正模型是预先根据统计的出现在特殊应用场景中的词汇的词频得到的；
[0015] 根据每个备选文字的特殊后验概率，对所述待识别文字进行识别。
[0016] 本申请实施例提供的一种文字识别装置，包括：
[0017] 备选文字确定模块，根据待识别文字的特征，确定所述待识别文字的备选文字；
[0018] 概率确定模块，针对每个备选文字，根据已识别的所述待识别文字的前一个文字，采用特殊校正模型确定所述待识别文字是该备选文字的特殊后验概率；其中，所述特殊校正模型是预先根据统计的出现在特殊应用场景中的词汇的词频得到的；
[0019] 识别模块，根据每个备选文字的特殊后验概率，对所述待识别文字进行识别。
[0020] 本申请实施例提供一种文字识别方法及装置，该方法确定待识别文字的备选文字，并针对每个备选文字，采用特殊校正模型确定该待识别文字是该备选文字的特殊后验概率，再根据每个备选文字的特殊后验概率识别该待识别文字。由于上述特殊校正模型是预先根据统计的出现在特殊应用场景中的词汇的词频得到的，因此采用特殊校正模型可以准确的识别出符合特殊应用场景的文字，从而可以提高在特殊应用场景中识别文字的精度。
【附图说明】
[0021] 此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：
[0022] 图1为本申请实施例提供的文字识别过程；
[0023] 图2为本申请实施例提供的文字识别装置结构示意图。
【具体实施方式】
[0024] 由于在特殊的应用场景中，采用通用校正模型并不能准确的识别出符合该特殊应用场景的文字，因此，本申请实施例中针对特殊应用场景，预先统计出现在该特殊应用场景中的词汇的词频，并据此得到特殊校正模型，在对待识别文字进行识别时，采用该特殊校正模型进行识别，以提高在该特殊应用场景下识别文字的精度。
[0025] 为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。
[0026] 图1为本申请实施例提供的文字识别过程，具体包括以下步骤：
[0027] SlOl :根据待识别文字的特征，确定该待识别文字的备选文字。
[0028] 在本申请实施例中，识别装置可将待识别文字输入到OCR引擎中，通过OCR引擎提取该待识别文字的特征，并将提取的特征与预先保存在模板库中的每个标准文字的特征进行比对，以确定该待识别文字的特征与每个标准文字的特征的相似度，再将相似度较大的若干个标准文字确定为该待识别文字的备选文字。其中，本申请实施例中所述的待识别文字的特征包括但不限于待识别文字的笔画特征。
[0029] 具体的，识别装置可先提取图像中的文字行，再确定文字行中的文字块(其中，一个文字块中包含一个文字)，再按照文字书写顺序(如，从左到右)，依次针对每个文字块，将该文字块中的文字作为待识别文字(也即，当前针对的文字块中包含的就是待识别文字）输入到OCR引擎中进行识别。
[0030] 例如，假设提取出的文字行中实际包含的文字为"应收"，则识别装置确定的该文字行中的文字块有两个，一个是"应"字所在的文字块，另一个是"收"字所在的文字块。
[0031] 由于一般的文字书写顺序是从左到右，因此，识别装置按照从左到右的顺序，先对 "应"字所在的文字块中的文字进行识别，再对"收"字所在的文字块中的文字进行识别。
[0032] S102:针对每个备选文字，根据已识别的该待识别文字的前一个文字，采用特殊校正模型确定该待识别文字是该备选文字的特殊后验概率。
[0033] 在本申请实施例中，上述特殊校正模型是预先根据统计的出现在特殊应用场景中的词汇的词频得到的。例如，假设特殊应用场景为单据应用场景，则可预先从大量的购物小票、收据中收集大量出现在单据应用场景中的词汇，并根据这些购物小票和收据，统计出现在单据应用场景中的各词汇的词频，再根据统计的词频得到特殊校正模型。需要说明的是，即使是同一个词汇，其出现在普通场景中的词频和出现在特殊应用场景中的词频很有可能差距很大，因此，本申请实施例中的特殊校正模型与通用校正模型具有很大差异。对于由文字A和文字B组成的词汇AB来说，在特殊应用场景中，如果AB出现的词频越大，则在待识别文字的前一个文字是A的条件下，采用特殊校正模型确定的该待识别文字是B的特殊后验概率也越大。<

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张宇;杜志军;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：人脸表情识别装置和方法
上一篇：一种码图的解码方法、系统和码图扫描设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。