文字识别方法和装置与流程

文档序号：13217109阅读：来源：国知局

技术特征：
1.一种文字识别方法，包括：获取待识别图像；检测所述待识别图像，以获得包含文字的期望文字框；对所述期望文字框进行扩充和合并，以生成文字行；以及识别所生成的文字行中的文字。2.如权利要求1所述的文字识别方法，其中，所述对所述期望文字框进行扩充和合并包括：步骤S231：确定所述期望文字框为初始文字框；步骤S232：利用训练好的反馈神经网络计算与每个初始文字框相对应的扩充文字框的端点坐标以及扩充置信度；步骤S233：将需要合并的扩充文字框进行合并，以生成新文字框，其中，每个新文字框的扩充置信度根据合并为该新文字框的扩充文字框的扩充置信度确定；步骤S234：根据所有新文字框的扩充置信度判断是否存在需要进一步扩充的新文字框，如果存在，则转至步骤S235，否则转至步骤S236；步骤S235：确定需要进一步扩充的新文字框为初始文字框并返回步骤S232；以及步骤S236：确定最后获得的文字框为所述文字行，其中，所述最后获得的文字框包括所述期望文字框、所述扩充文字框和所述新文字框中的一种或多种。3.如权利要求2所述的文字识别方法，其中，所述步骤S233包括：根据两个扩充文字框的相对角度和重叠程度判断是否需要合并所述两个扩充文字框，如果需要合并，则合并所述两个扩充文字框，以生成与所述两个扩充文字框相对应的新文字框。4.如权利要求3所述的文字识别方法，其中，所述合并所述两个扩充文字框包括：对所述两个扩充文字框的长宽、中心坐标以及倾斜角度进行加权平均，以生成与所述两个扩充文字框相对应的新文字框。5.如权利要求1所述的文字识别方法，其中，所述检测所述待识别图像以\t获得包含文字的期望文字框包括：从所述待识别图像中检测包含文字的初级文字框；以及对所述初级文字框的大小、位置和/或倾斜角度进行修正，以获得所述期望文字框。6.如权利要求5所述的文字识别方法，其中，在所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框之前，所述检测所述待识别图像以获得包含文字的期望文字框进一步包括：按照预定比例扩大所述初级文字框。7.如权利要求5或6所述的文字识别方法，其中，所述对所述初级文字框的大小、位置和/或倾斜角度进行修正以获得所述期望文字框包括：利用训练好的第一卷积神经网络计算所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度；根据所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度对所述初级文字框进行修正；以及根据经修正的初级文字框获得所述期望文字框。8.如权利要求7所述的文字识别方法，其中，所述根据经修正的初级文字框获得所述期望文字框包括：利用训练好的第二卷积神经网络计算所述经修正的初级文字框中存在文字的第一文字置信度；以及根据所述第一文字置信度对所述经修正的初级文字框进行过滤，以获得所述期望文字框。9.如权利要求5所述的文字识别方法，其中，所述从所述待识别图像中检测包含文字的初级文字框包括：利用基于滑动窗的卷积神经网络计算在所述待识别图像的图像块中存在文字的第二文字置信度；以及根据所述第二文字置信度选择其中存在文字的图像块作为所述初级文字框。10.如权利要求1所述的文字识别方法，其中，所述识别所生成的文字行中的文字包括：利用训练好的分割器对所述文字行进行拆分；以及利用训练好的文字分类器识别拆分后的文字行中的文字。11.一种文字识别装置，包括：图像获取模块，用于获取待识别图像；检测模块，用于检测所述待识别图像，以获得包含文字的期望文字框；文字行生成模块，用于对所述期望文字框进行扩充和合并，以生成文字行；以及识别模块，用于识别所生成的文字行中的文字。12.如权利要求11所述的文字识别装置，其中，所述文字行生成模块包括初始子模块、扩充子模块、合并子模块、判断子模块、第一确定子模块和第二确定子模块，所述初始子模块用于确定所述期望文字框为初始文字框；所述扩充子模块用于利用训练好的反馈神经网络计算与每个初始文字框相对应的扩充文字框的端点坐标以及扩充置信度；所述合并子模块用于将需要合并的扩充文字框进行合并，以生成新文字框，其中，每个新文字框的扩充置信度根据合并为该新文字框的扩充文字框的扩充置信度确定；所述判断子模块用于根据所有新文字框的扩充置信度判断是否存在需要进一步扩充的新文字框，如果存在，则启动所述第一确定子模块，否则启动所述第二确定子模块；所述第一确定子模块用于确定需要进一步扩充的新文字框为初始文字框并启动所述扩充子模块；第二确定子模块用于确定最后获得的文字框为所述文字行，其中，所述最后获得的文字框包括所述期望文字框、所述扩充文字框和所述新文字框中的一种或多种。13.如权利要求12所述的文字识别装置，其中，所述合并子模块包括：合并判断单元，用于根据两个扩充文字框的相对角度和重叠程度判断是否需要合并所述两个扩充文字框，如果需要合并，则合并所述两个扩充文字框，以生成与所述两个扩充文字框相对应的新文字框。14.如权利要求11所述的文字识别装置，其中，所述检测模块包括：初级检测子模块，用于从所述待识别图像中检测包含文字的初级文字框；以及修正子模块，用于对所述初级文字框的大小、位置和/或倾斜角度进行修正，\t以获得所述期望文字框。15.如权利要求14所述的文字识别装置，其中，所述检测模块进一步包括：扩大子模块，用于按照预定比例扩大所述初级文字框。16.如权利要求14或15所述的文字识别装置，其中，所述修正子模块包括：第一计算单元，用于利用训练好的第一卷积神经网络计算所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度；修正单元，用于根据所述初级文字框的修正后的长宽、修正后的中心坐标和/或修正后的倾斜角度对所述初级文字框进行修正；以及期望文字框获得单元，用于根据经修正的初级文字框获得所述期望文字框。17.如权利要求16所述的文字识别装置，其中，所述期望文字框获得单元包括：计算子单元，用于利用训练好的第二卷积神经网络计算所述经修正的初级文字框中存在文字的第一文字置信度；以及过滤子单元，用于根据所述第一文字置信度对所述经修正的初级文字框进行过滤，以获得所述期望文字框。18.如权利要求14所述的文字识别装置，其中，所述初级检测子模块包括：第二计算单元，用于利用基于滑动窗的卷积神经网络计算在所述待识别图像的图像块中存在文字的第二文字置信度；以及选择单元，用于根据所述第二文字置信度选择其中存在文字的图像块作为所述初级文字框。19.如权利要求11所述的文字识别装置，其中，所述识别模块包括：拆分子模块，用于利用训练好的分割器对所述文字行进行拆分；以及识别子模块，用于利用训练好的文字分类器识别拆分后的文字行中的文字。

完整全部详细技术资料下载

当前第2页1 2 3