一种文本识别方法和装置与流程

文档序号：21782739发布日期：2020-08-07 20:14阅读：来源：国知局

技术特征：

1.一种文本识别方法，其特征在于，包括：

获取待识别文本和所述待识别文本在所属业务平台所使用的字体，所述待识别文本包括多个文本字符；

在所述待识别文本中筛选出不属于预设文本字符库中的文本字符，得到特殊字符，并将所述特殊字符按照所述字体转换为图像，得到字符图像；

采用图像识别模型对所述字符图像进行识别，以在所述预设文本字符库中筛选出与所述字符图像相似的候选文本字符，所述图像识别模型由多个字符图像样本训练而成，所述字符图像样本由预设文本字符库中的文本字符按照不同字体转换而成的图像；

根据所述特殊字符在待识别文本的上下文信息，在所述候选文本字符中确定出所述特殊字符对应的目标文本字符；

基于所述目标文本字符，对所述待识别文本进行识别。

2.根据权利要求1所述的文本识别方法，其特征在于，所述采用图像识别模型对所述字符图像进行识别，以在所述预设文本字符库中筛选出与所述字符图像相似的候选文本字符，包括：

采用图像识别模型对所述字符图像进行多尺度的特征提取，得到不同尺度对应的局部特征信息；

将所述局部特征信息进行融合，得到所述字符图像的全局特征信息；

根据所述全局特征信息，在所述预设文本字符库中筛选出与所述字符图像相似的一个或多个候选文本字符。

3.根据权利要求2所述的文本识别方法，其特征在于，所述根据所述特殊字符在待识别文本的上下文信息，在所述候选文本字符中确定出所述特殊字符对应的目标文本字符，包括：

当筛选出的与所述字符图像相似的候选文本字符的数量为一个时，将所述候选文本字符作为所述特殊字符对应的目标文本字符；

当筛选出的与所述字符图像相似的候选文本字符的数量为多个时，根据所述特殊字符在待识别文本的上下文信息，在所述候选文本字符中确定出所述特殊字符对应的目标文本字符。

4.根据权利要求3所述的文本识别方法，其特征在于，所述根据所述特殊字符在待识别文本的上下文信息，在所述候选文本字符中确定出所述特殊字符对应的目标文本字符，包括：

根据所述特殊字符在待识别文本的上下文信息，在所述待识别文本中筛选出所述特殊字符的第一邻近文本字符；

确定所述第一邻近文本字符与所述候选文本字符的关联信息；

根据所述关联信息，在所述候选文本字符中确定出所述特殊字符对应的目标文本字符。

5.根据权利要求1所述文本识别方法，其特征在于，所述基于所述目标文本字符，对所述待识别文本进行识别，包括：

将所述待识别文本的文本字符中的特殊字符替换为所述目标文本字符，得到所述待识别文本的可识别文本字符，所述可识别文本字符可以通过所述预设文本字符库进行被识别；

对所述待识别文本字符的可识别文本字符进行特征提取，以得到所述待识别文本的文本特征；

根据所述待识别文本的文本特征，对所述待识别文本进行识别。

6.根据权利要求5所述的文本识别方法，其特征在于，所述对所述待识别文本字符的可识别文本字符进行特征提取，以得到所述待识别文本的文本特征，包括：

对所述待识别文本的可识别文本字符进行特征提取，得到所述可识别文本字符的文本特征；

对所述可识别文本字符的文本特征进行融合，以得到所述待识别文本的文本特征。

7.根据权利要求6所述的文本识别方法，其特征在于，所述对所述待识别文本的可识别文本字符进行特征提取，得到所述可识别文本字符的文本特征，包括：

获取所述可识别文本字符在所述待识别文本中的位置信息；

根据所述位置信息，在所述待识别文本中筛选出可识别文本字符的第二邻近文本字符；

对所述第二邻近文本字符进行特征提取，以得到所述可识别文本字符的文本特征。

8.根据权利要求7所述的文本识别方法，其特征在于，所述对所述第二邻近文本字符进行特征提取，以得到所述可识别文本字符的文本特征，包括：

对所述可识别文本字符进行特征提取，得到所述可识别文本字符的初始文本特征；

根据所述可识别文本字符的初始文本特征，确定所述第二邻近文本字符的文本特征；

基于所述第二邻近文本字符的文本特征，对所述可识别文本字符的初始文本特征进行调整，得到所述可识别文本字符的文本特征。

9.根据权利要求6所述的文本识别方法，其特征在于，所述对所述可识别文本字符的文本特征进行融合，以得到所述待识别文本的文本特征，包括：

将所述可识别文本字符的文本特征进行融合，得到所述待识别文本的第一初始文本特征；

在所述可识别文本字符中筛选出互不重复的文本字符；

将所述互不重复的文本字符的文本特征进行特征融合，得到所述待识别文本的第二初始文本特征；

将所述第一初始文本特征和第二初始文本特征进行拼接，得到所述待识别文本的文本特征。

10.根据权利要求5所述的文本识别方法，其特征在于，所述根据所述待识别文本的文本特征，对所述待识别文本进行识别，包括：

计算所述待识别文本的文本特征与预设文本特征库中的文本特征的相似度；

根据所述相似度，对所述待识别文本进行识别。

11.根据权利要求10所述的文本识别方法，其特征在于，所述预设文本特征库包括多个子文本特征库，所述计算所述待识别文本的文本特征与预设文本特征库中的文本特征的相似度，包括：

将所述待识别文本的文本特征进行分段，得到多个子文本特征；

在所述预设文本特征库中聚类出所述子文本特征对应的目标子文本特征库；

计算所述子文本特征与所述目标子文本特征库中的文本特征的初始相似度；

对所述初始相似度进行融合，得到所述待识别文本的文本特征与预设文本特征库中的文本特征的相似度。

12.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述相似度，对所述待识别文本进行识别，包括：

根据所述相似度，在所述预设文本特征库中筛选出预设数量的目标预设文本特征，所述预设文本特征库中包括预设正常文本特征和预设垃圾文本特征；

当所述目标预设文本特征全部为预设正常文本特征时，确定所述待识别文本为正常文本；

当所述目标预设文本特征全部为预设垃圾文本特征时，确定所述待识别文本为垃圾文本；

当所述目标预设文本特征中存在预设正常文本特征和预设垃圾文本特征时，在所述相似度中筛选出正常文本相似度和垃圾文本相似度，并根据所述正常文本相似度和垃圾文本相似度，对所述待识别文本进行识别，所述正常文本相似度为所述待识别文本的文本特征与预设正常文本特征的相似度，所述垃圾文本相似度为所述待识别文本的文本特征与预设垃圾文本特征的相似度。

13.根据权利要求12所述的文本识别方法，其特征在于，所述在所述相似度中筛选出正常文本相似度和垃圾文本相似度，并根据所述正常文本相似度和垃圾文本相似度，对所述待识别文本进行识别，包括：

在所述相似度中筛选出正常文本相似度和垃圾文本相似度；

对所述正常文本相似度和垃圾文本相似度分别进行加权，得到正常文本相似度的第一加权值和垃圾文本相似度的第二加权值；

当所述第一加权值超过所述第二加权值时，确定所述待识别文本为正常文本；

当所述第一加权值未超过所述第二加权值时，确定所述待识别文本为垃圾文本。

14.根据权利要求13所述文本识别方法，其特征在于，还包括

当所述待识别文本为垃圾文本时，对所述待识别文本进行拦截。

15.一种文本识别装置，其特征在于，包括：

获取单元，用于获取待识别文本和所述待识别文本在所属业务平台所使用的字体，所述待识别文本包括多个文本字符；

转换单元，用于在所述待识别文本中筛选出不属于预设文本字符库中的文本字符，得到特殊字符，并将所述特殊字符按照所述字体转换为图像，得到字符图像；

筛选单元，用于采用图像识别模型对所述字符图像进行识别，以在所述预设文本字符库中筛选出与所述字符图像相似的候选文本字符，所述图像识别模型由多个字符图像样本训练而成，所述字符图像样本由预设文本字符库中的文本字符按照不同字体转换而成的图像；

确定单元，用于根据所述特殊字符在待识别文本的上下文信息，在所述候选文本字符中确定出所述特殊字符对应的目标文本字符；

识别单元，用于基于所述目标文本字符，对所述待识别文本进行识别。

技术总结
本发明实施例公开了一种文本识别方法和装置；本发明实施例获取待识别文本和待识别文本在所属业务平台所使用的字体后，在待识别文本中筛选出不属于预设文本字符库中的文本字符，得到特殊字符，并将特殊字符按照字体转换为图像，得到字符图像，采用图像识别模型对字符图像进行识别，以在预设文本字符库中筛选出与字符图像相似的候选文本字符，根据特殊字符在待识别文本的上下文信息，在候选文本字符中确定出特殊字符对应的目标文本字符，基于目标文本字符，对待识别文本进行识别；该方案可以提升在待识别文本识别出垃圾文本的准确率。

技术研发人员：王皓;周宇超;康斌
受保护的技术使用者：腾讯科技(深圳)有限公司
技术研发日：2020.04.16
技术公布日：2020.08.07

完整全部详细技术资料下载

当前第2页1 2