一种基于自然语言语义分析的文本识别方法与流程

文档序号：22126261发布日期：2020-09-04 17:28阅读：234来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及文本识别技术领域，特别涉及一种基于自然语言语义分析的文本识别方法。

背景技术：

文本识别主要是分为两个阶段，第一阶段是文本检测，首先利用文本检测技术定位到图片中文本所在的位置，然后框出文本，剪裁出文本区域；第二阶段是文本识别，对通过文本检测方法所剪裁好的文本区域进行识别，即得到识别文本框中所包含的文本。

目前，对于文本识别中文本检测和文本识别之间的关联度很高，但是还没有很好的方式同时完成文本检测和文本识别，计算的消耗比较大。

技术实现要素：

本发明提供一种基于自然语言语义分析的文本识别方法，所述技术方案如下：

采集待识别的文本；

获取目标检测及识别网络，其中，所述目标检测及识别网络能够执行文本检测和文本识别任务；

通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别。

在一个实施例中，所述采集待识别的文本，包括：

利用预设工具获取目标图片；

根据所述目标图片的图片格式进行格式转换，以得到格式转换后的目标图片；

对所述格式转换后的目标图片进行句子提取，得到若干条语句；

根据所述若干条语句判断所述目标图片是否满足预设需求，

当所述目标图片满足预设需求时，根据所述目标图片确定所述待识别的文本。

在一个实施例中，在所述根据所述目标图片的图片格式进行格式转换，以得到格式转换后的目标图片之前，还包括：

对所述目标图片进行降噪处理；

降噪处理完成后，根据目标图片本身的属性进行归一化处理，其中，所述目标图片本身的属性包括分辨率、像素深度、真/伪彩色中的任意一种或多种。

在一个实施例中，对目标图片进行降噪处理，其步骤如下：

步骤a1，根据以下公式计算目标图片的像素值的均值：

其中，δt表示目标图片像素值的平均值；n,m衡量目标图片像素值的个数，n代表横坐标，m代表纵坐标，x(i,j)代表横坐标为i纵坐标为j的目标图片像素值大小；

步骤a2，根据以下公式求出衡量正常像素点与噪声点的阈值：

其中，p(i,j)代表目标图片临近区域内的像素值的均值，s(i,j)代表目标图片像素值标准方差，l代表标准方差的动态范围内选取的数值，s(i,j)≤l≤s(i,j)+1，q(i,j)代表衡量正常像素点与噪声点的阈值，k是定义的一个修正参数，0＜k＜1；

步骤a3，根据下述公式对目标图片的噪声点进行处理；

其中，q(i,j)代表衡量正常像素点与噪声点的阈值，δt代表目标图片像素的平均值，x(i,j)代表横坐标为i纵坐标为j的去噪前目标图片像素值大小，r(i,j)代表去噪后的目标图片像素值大小。

步骤a4，根据所述处理后目标图片各个坐标点的像素值xij重构处理后的目标图片所述目标图片就是去噪归一化后的目标图片。

在一个实施例中，所述根据所述目标图片的图片格式进行格式转换，以得到格式转换后目标图片，包括

提取出所述目标图片的图片格式标识；

基于所述图片格式标识，对所述目标图片的图片格式进行格式转换，以得到所述格式转换后的目标图片。

在一个实施例中，所述获取目标检测及识别网络，包括：

获取基于注意力机制的文本检测及识别网络；

获取预设文本检测和文本识别的训练数据集；

根据所述训练数据集对所述基于注意力机制的文本检测及识别网络进行训练，且在训练的过程中通过预设算法进行网络参数的调整，以得到所述目标检测及识别网络。

在一个实施例中，所述获取基于注意力机制的文本检测及识别网络包括：通过卷积神经网络模型和循环神经网络模型，且结合注意力机制进行网络模型的构建，以得到所述基于注意力机制的文本检测及识别网络。

在一个实施例中，根据所述训练数据集对所述基于注意力机制的文本检测及识别网络进行训练，且在训练的过程中通过预设算法进行网络参数的调整，以得到所述目标检测及识别网络，包括：

获取预设的文本检测和文本识别的测试数据集；

对所述基于注意力机制的文本检测及识别网络中由所述卷积神经网络构成的文件检测部分进行预训练，且在预训练的过程中通过所述预设算法进行优化；

对所述基于注意力机制的文本检测及识别网络中的文本检测部分和文本识别部分统一进行训练，且通过所述测试数据集进行测试，从测试的过程中确定所述目标检测及识别网络。

在一个实施例中，所述通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别，包括

通过所述目标检测及识别网络中的文本检测部分对所述待识别文本进行检测，得到待识别的文本区域；

通过所述目标检测及识别网络中的文本识别部分对所述待识别的文本区域进行基于自然语言语义分析的文本识别，得到文本识别结果。

在一个实施例中，所述预设算法包括梯度下降算法和/或反传播算法。

本发明实施例提供的技术方案可以包括以下有益效果：

采集待识别的文本，获取目标检测及识别网络，进而通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别。通过本发明的技术方案，能够将文本检测和文本识别高效的结合起来，不用再将文本检测和文本识别分为两个单独的任务，能够有效的降低文本识别时计算的消耗。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种基于自然语言语义分析的文本识别方法的流程图；

图2为本发明一实施例中另一种基于自然语言语义分析的文本识别方法的流程图；

图3为本发明一实施例中又一种基于自然语言语义分析的文本识别方法的流程图；

图4为本发明一实施例中再一种基于自然语言语义分析的文本识别方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种基于自然语言语义分析的文本识别方法的流程图，如图1所示，该方法可被实施为以下步骤s11-s13：

在步骤s11中，采集待识别的文本；

待识别的文本是图片格式的，待识别文本中可能包含有大量的图片、文字、报表和文本。

在步骤s12中，获取目标检测及识别网络，其中，目标检测及识别网络能够执行文本检测和文本识别任务；

目标检测及识别网络是指网络模型，能够同时的进行文本检测和文本识别，并且目标检测及识别网络在构建的时候，结合了能够进行基于自然语言语义分析的文本识别的功能，对自然语音语义作如下解释：语言所蕴含的意义就是语义(semantic)。简单的说，符号是语言的载体。符号本身没有任何意义，只有被赋予含义的符号才能够被使用，这时候语言就转化为了信息，而语言的含义就是语义。语义可以简单地看作是数据所对应的现实世界中的事物所代表的概念的含义，以及这些含义之间的关系，是数据在某个领域上的解释和逻辑表示。

在步骤s13中，通过目标检测及识别网络对待识别文本进行文本检测及基于自然语言语义分析的文本识别。其中，通过目标检测及识别网络先对待识别文本进行文本检测，然后对文本检测的结果进行文本识别，不需要单独的分开进行，可以同时完成这两部分的操作。

如图2所示，在一个实施例中，上述步骤s11可被实施为以下步骤s111-s114：

在步骤s111中，利用预设工具获取目标图片；

预设工具可以是搜索引擎，如百度、谷歌等，还可以是一些拍摄设备，比如，电脑、手机、无人机等，可以对感兴趣的图片进行拍摄，进而获取到目标图片。

在步骤s112中，根据目标图片的图片格式进行格式转换，以得到格式转换后的目标图片；

对目标图片的图片格式进行格式转换是因为格式转换之前的目标图片不能满足需求，例如转换之前目标图片的格式为bmp，但是此格式并不能支持后续进行句子提取的操作，故对目标图片的格式进行转换，例如转换成jpg的格式，然后根据转换格式后的目标图片进行后续的句子提取的操作。

在步骤s113中，对格式转换后的目标图片进行句子提取，得到若干条语句；

对格式转换后的目标图片进行句子提取，例如目标图片可能属于学习类的图片或游戏类的图片，图片中的内容是学习资料或者游戏资料，提取后得到二十条句子，预设需求是学习资料的需求，如果这二十条句子是游戏资料相关的句子，显然不满足预设需求，当二十条句子是学习资料相关的句子时，显然满足预设需求。

在步骤s114中，根据若干条语句判断所述目标图片是否满足预设需求，当目标图片满足预设需求时，根据目标图片确定待识别的文本。即当目标图片满足预设需求时，将目标图片作为待识别文本。

本实施例中，首先，利用预设工具获取目标图片；然后，根据所述目标图片的图片格式进行格式转换，能够得到格式转换后的目标图片；其次，对所述格式转换后的目标图片进行句子提取，能够得到若干条语句；进而，根据所述若干条语句判断所述目标图片是否满足预设需求，最后，当所述目标图片满足预设需求时，根据所述目标图片确定所述待识别的文本。通过对图片格式转换能够将不满足需求的图片转换为满足需求的图片，提高计算的效率，同时用目标图片中的若干条句子进一步的判断是否满足预设需求能够确保得到的目标图片是需求进行文本识别的文本，避免做一些无用功。

如图3所示，在一个实施例中，上述步骤s11可被实施的步骤，还包括s115-s116：

在步骤s115中，对目标图片进行降噪处理；

当获取到目标图片的时候，图片可能并不清晰，图片中存在噪点，也就是图片的质量并不是太好，因此可以对目标图片进行降噪处理。

在步骤s116中，降噪处理完成后，根据目标图片本身的属性进行归一化处理，其中，目标图片本身的属性包括分辨率、像素深度、真/伪彩色中的任意一种或多种。

根据本发明的一些实施例，对所述利用预设工具获取目标图片，其中包括对目标图片进行降噪处理，其步骤如下：

步骤a1，根据以下公式计算目标图片的像素值的均值：

步骤a2，根据以下公式求出衡量正常像素点与噪声点的阈值：

步骤a3，根据下述公式对目标图片的噪声点进行处理；

有益效果：利用以上算法采用了深度学习技术，通过求取预设阈值，当目标图片像素值的大小大于阈值则为噪声点，用均值代替，当目标图片像素值的大小小于阈值则为正常，不用做修改，对目标图片的每个像素值进行比较，以便于对噪声的处理，为后期图像进行训练提高了准确率，提高了目标图像的质量，此算法改进了阈值的方法，通过准确的求取阈值对噪声进行处理，改进了之前通过迭代而判断阈值的方法，节省了大量的时间。

本实施例中，对目标图片进行降噪处理，降噪处理完成后，根据目标图片本身的属性进行归一化处理，通过降噪处理及归一化处理能够提升目标图片的质量。

在一个实施例中，所述根据所述目标图片的图片格式进行格式转换，以得到格式转换后目标图片，包括

提取出所述目标图片的图片格式标识；

图片格式标识包括但不限于jpg、webp、png等。

基于所述图片格式标识，对所述目标图片的图片格式进行格式转换，以得到所述格式转换后的目标图片。

本实施例中，提取出所述目标图片的图片格式标识，进而，基于所述图片格式标识，对所述目标图片的图片格式进行格式转换，能够得到所述格式转换后的目标图片，通过根据图片格式的表示进行格式转换，能使转换时更有针对性，也能够准确的得到格式转换后的目标图片。

如图4所示，在一个实施例中，上述步骤s12可被实施为以下步骤s121-s123：

在步骤s121中，获取基于注意力机制的文本检测及识别网络；

在步骤s122中，获取预设文本检测和文本识别的训练数据集；

在步骤s123中，根据训练数据集对基于注意力机制的文本检测及识别网络进行训练，且在训练的过程中通过预设算法进行网络参数的调整，以得到目标检测及识别网络。预设算法包括梯度下降算法和/或反传播算法。

本实施例中，获取基于注意力机制的文本检测及识别网络；其次，获取预设文本检测和文本识别的训练数据集；最后，根据训练数据集对基于注意力机制的文本检测及识别网络进行训练，且在训练的过程中通过预设算法进行网络参数的调整，以得到目标检测及识别网络。通过训练数据集对基于注意力机制的文本检测及识别网络进行训练，并且在训练的过程中进行网络参数的调整，得到能够准确的、同时的、快速的进行文本检测和文本识别的目标检测及识别网络。

在一个实施例中，所述获取基于注意力机制的文本检测及识别网络包括：通过卷积神经网络模型和循环神经网络模型，且结合注意力机制进行网络模型的构建，以得到所述基于注意力机制的文本检测及识别网络。其中，注意力机制，从字面意思来看和人类的注意力机制类似。人类通过快速扫描全局文本，获得需要重点关注的区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。并且，在构建基于注意力机制的文本检测及识别网络时，还结合基于自然语言语义分析的文本识别的功能。

本实施例中，通过卷积神经网络模型和循环神经网络模型，且结合注意力机制进行网络模型的构建，能够得到所述基于注意力机制的文本检测及识别网络，在构建网络模型的时候结合注意力机制，能够使网络模型快速准确的获取到待识别文本中需要重点关注的区域。

获取预设的文本检测和文本识别的测试数据集；

具体的，可以是icdar2013、icdar2015及coco-text的数据集。

对所述基于注意力机制的文本检测及识别网络中的文本检测部分和文本识别部分统一进行训练，且通过所述测试数据集进行测试，从测试的过程中确定所述目标检测及识别网络。其中，在进行网络模型训练的过程中，会产生许多的网络模型，但是每个网络模型的效果可能并不相同，因此通过测试数据集能够获取到效果最佳的网络模型，此网络模型即为目标检测及识别网络。并且由于基于注意力机制的文本检测及识别网络时构建时结合了基于自然语言语义分析的文本识别的功能，因此目标检测及识别网络也具有基于自然语言语义分析的文本识别的功能。

本实施例中，获取预设的文本检测和文本识别的测试数据集；然后，对所述基于注意力机制的文本检测及识别网络中由所述卷积神经网络构成的文件检测部分进行预训练，且在预训练的过程中通过所述预设算法进行优化；进而，对所述基于注意力机制的文本检测及识别网络中的文本检测部分和文本识别部分统一进行训练，且通过所述测试数据集进行测试，从测试的过程中确定所述目标检测及识别网络。通过测试数据集能够防止模型训练的过拟合，并且及时、准确的得到目标检测及识别网络。

在一个实施例中，所述通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别，包括

通过所述目标检测及识别网络中的文本检测部分对所述待识别文本进行检测，得到待识别的文本区域；

待识别文本中可能有很大一部分的区域并不是满足需要的，例如待识别文本中具有很多垃圾图片，或者一些无关学习需求、娱乐需求等需求的一些文字，因此，需要通过文本检测获取到待识别文本中的待识别文本区域。

通过所述目标检测及识别网络中的文本识别部分对所述待识别的文本区域进行基于自然语言语义分析的文本识别，得到文本识别结果。其中，目标检测及识别网络并不是一定要等文本检测完成以后再进行文本识别，而是可以边进行文本检测，边进行文本识别。

本实施例中，通过所述目标检测及识别网络中的文本检测部分对所述待识别文本进行检测，得到待识别的文本区域，进而通过所述目标检测及识别网络中的文本识别部分对所述待识别的文本区域进行基于自然语言语义分析的文本识别，得到文本识别结果，通过目标检测及识别网络能够将文本检测和文本识别高效的结合起来，不用再将文本检测和文本识别分为两个单独的任务，能够有效的降低文本识别时计算的消耗。

在一个实施例中，通过自然语言语义同时完成文本检测和文本识别任务，将文本检测和文本识别任务融合到一个统一的框架中，通过自然语言理解技术并结合多级的机器学习、深度学习算法完成整个任务；同时在文本识别中结合注意力机制，为文本识别提高了空间识别维度，对文本的外观具备较强的鲁棒性，确保能够识别任意形状的文本；具体步骤如下：

采用icdar2013、icdar2015及coco-text的文本检测和文本识别数据集进行网络的训练和测试；

将文本检测和文本识别并行处理；

检测网络的分类和回归损失及识别网络的交叉熵损失函数；

在网络训练时采用经典的梯度下降和反向传播算法，对检测网络和识别网络进行网络参数的更新，从而获得到目标检测及识别网络。

在一个实施例中，所述预设算法包括梯度下降算法和/或反传播算法。

本实施例中，通过梯度下降算法和/或反传播算法进行网络优化时，速度更快、效果更佳。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘如君;刘志杰;陈乔;尚雪松
技术所有人：北京微智信业科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。