一种应用于终端设备的文字识别方法及系统与流程

文档序号：12595937阅读：208来源：国知局

本发明涉及数据处理
技术领域：
，具体涉及一种应用于终端设备的文字识别方法及系统。
背景技术：
：随着移动通信技术的迅速发展，IM(InstantMessaging，即时通讯工具)已成为人们生活中必不可少的一部分。用户可以通过IM软件如QQ、微信、钉钉等，实时地跟朋友、同事、家人等联系人进行通信，大大方便了人们的日常交流需求。目前，用户在即时通讯工具时，可以聊天场景中输入文字、语音、表情、图片等信息。这些聊天信息通常可以通过用户的键盘输入、表情或图片选择等方式直接输入在聊天场景的对话界面中。尽管现有的即时通讯工具中用户可以输入多种多样的聊天信息，但这种聊天信息的输入方式都是基于用户的键盘拼写或表情、图片选择等的方式直接输入到聊天场景中。而在其他的应用场景中，如用户不会拼写的生僻字，用户不会或者不习惯用键盘输入，或者用户需要摘录或查询图片中的某些信息发送给对方，如查看官方网址、搜索论文中某个公式的含义，等等，在这种情况下，现有的聊天场景中的信息输入方式难以快速、方便的满足用户的这些使用需求。此时的用户往往是手写查询生僻字或者逐个字符输入图片中商品的网址信息等等，用户操作繁琐，聊天信息输入缓慢，用户聊天应用体验较差。应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的
背景技术：
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。技术实现要素：本发明的目的在于提供一种应用于终端设备的文字识别方法及系统，可以通过读取图片中的信息再将其转化为文字信息来实现聊天场景中信息内容的快速输入，大大提高用户聊天应用的使用体验。为实现上述目的，本发明一方面提供一种应用于终端设备的文字识别方法，所述方法包括：获取待识别图片，并接收作用于所述待识别图片上的划取操控指令；根据所述划取操控指令在所述待识别图片上确定识别图块；识别所述识别图块中的文字信息，并将所述文字信息填充至预设聊天框中。进一步地，所述获取待识别图片具体包括：获取用户从本地图库中选取的本地照片，并将选取的本地照片作为所述待识别图片；或者获取用户在聊天记录中选取的聊天图片，并将选取的聊天图片作为所述待识别图片；或者基于用户的触发指令执行屏幕截图，并将所述屏幕截图获取的截图图片作为所述待识别图片。进一步地，所述划取操控指令在所述待识别图片上生成预设数量的色块；相应地，在根据所述划取操控指令在所述待识别图片上确定识别图块的步骤中具体包括：检测所述待识别图片上各个色块的边缘，以获取由检测的边缘限定的识别图块。进一步地，在检测所述待识别图片上各个色块的边缘的步骤中具体包括：将包含各个色块的待识别图片进行灰度化处理，得到灰度图像；利用预设的高斯函数，对所述灰度图像进行滤波处理，得到滤除噪点的过滤图像；计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向；基于计算的所述梯度幅值和所述梯度方向，在所述过滤图像中确定极大值像素点；从所述极大值像素点中筛选出灰度值大于或者等于预设阈值的像素点，并将筛选出的所述像素点确定为色块的边缘像素点。进一步地，在计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向的步骤中具体包括：根据预设的横向卷积算子和纵向卷积算子，计算所述过滤图像中各个像素点对应的一阶横向偏导数矩阵和一阶纵向偏导数矩阵；基于所述一阶横向偏导数矩阵和一阶纵向偏导数矩阵，按照下述公式计算各个像素点对应的梯度幅值和梯度方向：M[i,j]=P[i,j]2+Q[i,j]2]]>N[i,j]＝arctan(Q[i,j]/P[i,j])其中，M[i,j]为第i行第j列的像素点对应的梯度幅值，P[i,j]为第i行第j列的像素点对应的一阶横向偏导数矩阵，Q[i,j]为第i行第j列的像素点对应的一阶纵向偏导数矩阵，N[i,j]为第i行第j列的像素点对应的梯度方向。进一步地，在基于计算的所述梯度幅值和所述梯度方向，在所述过滤图像中确定极大值像素点的步骤中具体包括：在预设像素点的梯度方向选取与所述预设像素点相邻的预设数量的像素点，当所述预设像素点的灰度值大于或者等于所述预设数量的像素点中每个像素点的灰度值时，将所述预设像素点确定为极大值像素点。进一步地，识别所述识别图块中的文字信息具体包括：根据预设词汇库识别出所述识别图块中的代码/编码信息；若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种，则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。为实现上述目的，本发明还提供一种应用于终端设备的文字识别系统，所述系统包括：指令接收单元，用于获取待识别图片，并接收作用于所述待识别图片上的划取操控指令；识别图块确定单元，用于根据所述划取操控指令在所述待识别图片上确定识别图块；文字信息识别单元，用于识别所述识别图块中的文字信息，并将所述文字信息填充至预设聊天框中。进一步地，所述划取操控指令在所述待识别图片上生成预设数量的色块；相应地，所述文字信息识别单元具体包括：边缘检测模块，用于检测所述待识别图片上各个色块的边缘，以获取由检测的边缘限定的识别图块。进一步地，所述文字信息识别单元具体包括：识别模块，用于根据预设词汇库识别出所述识别图块中的代码/编码信息；翻译模块，用于若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种，则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。由上可见，本发明提供的本申请提供的一种应用于终端设备的文字识别方法及系统，可以在聊天场景中通过读取用户选取的图片，然后识别出用户在所述图片上选中的图片内容，可以将其转化为相应的文本信息内容，并可以将识别出的信息内容接入到用户的聊天场景中。这样，通过图片识别的方式，可以快速获取图片中的内容，帮助用户实现聊天场景中的信息快速输入。利用本申请实施方案可以解决用户不会或不习惯使用字符或手写键盘的困扰，帮助识别生僻字、快速获取图片中的字符信息等等，多方位辅助用户输入，提高用户体验。参照后文的说明和附图，详细公开了本申请的特定实施方式，指明了本申请的原理可以被采用的方式。应该理解，本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本申请的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明图1为本申请实施方式提供的一种应用于终端设备的文字识别方法的流程图；图2为本申请实施方式提供的一种应用于终端设备的文字识别系统的功能模块图。具体实施方式为了使本
技术领域：
的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都应当属于本申请保护的范围。本申请实施方式提供一种应用于终端设备的文字识别方法。请参阅图1，所述方法可以包括以下步骤。步骤S1：获取待识别图片，并接收作用于所述待识别图片上的划取操控指令。在本实施方式中，获取待识别图片的方式可以包括获取用户从本地图库中选取的本地照片，并将选取的本地照片作为所述待识别图片；或者获取用户在聊天记录中选取的聊天图片，并将选取的聊天图片作为所述待识别图片；或者基于用户的触发指令执行屏幕截图，并将所述屏幕截图获取的截图图片作为所述待识别图片。在本实施方式中，所述待识别图片上具有可识别的文字信息，所述文字信息例如可以是产品的序列号、产品的网址或者产品的名称。在进行聊天时，如果对方想了解某个产品的名称和官网地址，则可以对该产品的图片上的文字进行识别，进而将识别出的文字发送给对方。在本实施方式中，可以通过手指触碰的方式在所述待识别图片上进行划取操作，划取的目的可以为待识别的文字。这样，终端设备便可以接收作用于所述待识别图片上的划取操控指令。步骤S2：根据所述划取操控指令在所述待识别图片上确定识别图块。在本实施方式中，划取的识别图块可以具备与待识别图片上的其它背景色不同的高亮背景色。例如，划取的识别图块的背景色可以为蓝色或者黄色。也就是说，所述划取操控指令可以在所述待识别图片上生成预设数量的色块，各个色块便可以对应所述识别图块。在本实施方式中，可以检测所述待识别图片上各个色块的边缘，以获取由检测的边缘限定的识别图块。具体地，彩色图像通常由R(Red，红)、G(Green，绿)、B(Blue，蓝)三个通道的颜色变化以及它们之间的叠加来进行显示，在本实施方式中，可以对各个通道的像素值进行加权平均，从而将RGB三个通道的像素值转换为灰度值。具体地，在本实施方式中可以按照下述公式中的任意一个对包含各个色块的待识别图片进行灰度化处理：公式1：Gray＝(R+G+B)/3；公式2：Gray＝0.299R+0.587G+0.114B；其中，R、G、B分别代表R通道、G通道以及B通道的像素值，Gray代表灰度化处理后的灰度值。接着，可以利用预设的高斯函数，对所述灰度图像进行滤波处理，得到滤除噪点的过滤图像。在本实施方式中，考虑到在所述灰度图像中，往往存在较多的噪点，这些噪点在后续的处理过程中会严重影响处理结果的准确性。因此，在本实施方式中可以对所述灰度图像进行滤波处理，得到滤除噪点的过滤图像。具体地，在本实施方式中可以将预设的高斯函数作为滤波函数。所述预设的高斯函数例如可以为：K=12πσe-x22σ2]]>在本实施方式中，可以将所述灰度图像的像素矩阵与上述的高斯函数进行求褶积运算，从而可以将所述灰度图像中的噪点滤除，得到与所述灰度图像对应的过滤图像。然后便可以计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向。在本实施方式中，所述过滤图像中色块的边缘可以通过计算所述过滤图像中各个像素点对应的梯度幅值和梯度方向来确定。在本实施方式中，可以通过一阶偏导数矩阵来计算各个像素点对应的梯度幅值和梯度方向。具体地，在本实施方式中，所述一阶偏导数矩阵可以分为横向偏导数矩阵(x轴方向)和纵向偏导数矩阵(y轴方向)。因此，可以预先指定横向卷积算子(x轴方向)和纵向卷积算子(y轴方向)，利用这两个卷积算子分别对所述过滤图像中的各个像素点进行卷积处理，从而可以得到对应的一阶偏导数矩阵。在本实施方式中，所述横向卷积算子和纵向卷积算子可以如下所示：sx=-11-11,sy=11-1-1]]>其中，sx为所述横向卷积算子，sy为所述纵向卷积算子。利用所述横向卷积算子和纵向卷积算子对所述过滤图像中各个像素点进行处理后得到的一阶偏导数矩阵可以如下所示：P[i,j]＝(f[i,j+1]-f[i,j]+f[i+1,j+1]-f[i+1,j])/2Q[i,j]＝(f[i,j]-f[i+1,j]+f[i,j+1]-f[i+1,j+1])/2其中，P[i,j]表示第i行第j列的像素点对应的一阶横向偏导数，Q[i,j]表示第i行第j列的像素点对应的一阶纵向偏导数，f[i,j]表示第i行第j列的像素点对应的像素值。在计算得到所述一阶横向偏导数矩阵和一阶纵向偏导数矩阵后，可以按照下述公式计算各个像素点对应的梯度幅值和梯度方向：M[i,j]=P[i,j]2+Q[i,j]2]]>N[i,j]＝arctan(Q[i,j]/P[i,j])其中，M[i,j]为第i行第j列的像素点对应的梯度幅值，P[i,j]为第i行第j列的像素点对应的一阶横向偏导数矩阵，Q[i,j]为第i行第j列的像素点对应的一阶纵向偏导数矩阵，N[i,j]为第i行第j列的像素点对应的梯度方向。接着，可以基于计算的所述梯度幅值和所述梯度方向，在所述过滤图像中确定极大值像素点。在本实施方式中，所述过滤图像中像素点的灰度值会沿着该像素点的梯度方向进行变化，那么与该像素点相邻的局部区域中灰度值最大的点往往落在该像素点对应的梯度方向上。在本实施方式中，灰度值在相邻的局部区域中最大的像素点可以称为极大值像素点。由于边缘上的像素点在与其相邻的局部区域内，灰度值往往是最大的，因此，在本实施方式中可以在所述过滤图像中确定极大值像素点。具体地，可以在预设像素点的梯度方向选取与所述预设像素点相邻的预设数量的像素点。在具体实施过程中，往往可以选择与所述预设像素点相邻的8个像素点。当所述预设像素点的灰度值大于或者等于所述预设数量的像素点中每个像素点的灰度值时，则可以将所述预设像素点确定为极大值像素点。最后，可以从所述极大值像素点中筛选出灰度值大于或者等于预设阈值的像素点，并将筛选出的所述像素点确定为色块的边缘像素点。在本实施方式中，由于受到计算误差或者干扰像素点点的影响，确定的极大值像素点中可能会存在不处于边缘上的像素点。在这种情况下，则需要对确定出的极大值像素点的灰度值再次进行判断，以将灰度值较低的像素点剔除。具体地，在本实施方式中可以从所述极大值像素点中筛选出灰度值大于或者等于预设阈值的像素点，并将筛选出的所述像素点确定为色块的边缘像素点。这样，确定的边缘像素点便可以构成色块的轮廓，由所述轮廓限定的区域便可以是所述色块在待识别图片上的区域。步骤S3：识别所述识别图块中的文字信息，并将所述文字信息填充至预设聊天框中。在本实施方式中，可以根据预设词汇库识别出所述识别图块中的代码/编码信息。所述预设词汇库中可以包括各种各样的词汇，通过将所述识别图块中的文字信息与所述预设词汇库中的各个词汇进行匹配，从而可以确定出与所述识别图块中的文字信息相匹配的多个词汇，这些词汇的集合便可以作为所述识别图块中的文字信息。在本实施方式中，识别出的代码/编码信息可以并不是用户熟知的语言，在这种情况下，若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种，则可以将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。例如，可以将识别出的英文通过终端设备自带的翻译软件翻译为中文之后，再将中文作为识别出的文字信息。在本实施方式中，在识别出所述识别图块中的文字信息之后，这些文字信息便可以直接填充至当前的聊天框中，从而可以发送给聊天的对象。本申请实施方式还提供一种用于上述文字识别方法的应用于终端设备的文字识别系统。请参阅图2，所述系统包括：指令接收单元100，用于获取待识别图片，并接收作用于所述待识别图片上的划取操控指令；识别图块确定单元200，用于根据所述划取操控指令在所述待识别图片上确定识别图块；文字信息识别单元300，用于识别所述识别图块中的文字信息，并将所述文字信息填充至预设聊天框中。在本申请一个实施方式中，所述划取操控指令在所述待识别图片上生成预设数量的色块；相应地，所述文字信息识别单元300具体包括：边缘检测模块，用于检测所述待识别图片上各个色块的边缘，以获取由检测的边缘限定的识别图块。在本申请一个实施方式中，所述文字信息识别单元300具体包括：识别模块，用于根据预设词汇库识别出所述识别图块中的代码/编码信息；翻译模块，用于若识别出的代码/编码信息包含预先设置的需要进行翻译第一语种，则将所述第一语种的代码/编码信息翻译成第二语种的代码/编码信息。由上可见，本发明提供的本申请提供的一种应用于终端设备的文字识别方法及系统，可以在聊天场景中通过读取用户选取的图片，然后识别出用户在所述图片上选中的图片内容，可以将其转化为相应的文本信息内容，并可以将识别出的信息内容接入到用户的聊天场景中。这样，通过图片识别的方式，可以快速获取图片中的内容，帮助用户实现聊天场景中的信息快速输入。利用本申请实施方案可以解决用户不会或不习惯使用字符或手写键盘的困扰，帮助识别生僻字、快速获取图片中的字符信息等等，多方位辅助用户输入，提高用户体验。虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹蕊;
技术所有人：曹蕊;
我是此专利的发明人

上一篇：一种卫星用高效率软开关电源变换器的制作方法与工艺
上一篇：一种接口测试方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。