文本识别方法及电子设备与流程

文档序号：36401832发布日期：2023-12-16 06:15阅读：33来源：国知局

本技术实施例涉及终端设备领域，尤其涉及一种文本识别方法及电子设备。

背景技术：

1、随着通信技术的不断发展，手机等终端已成为人们日常生活中不可或缺的一部分。用户利用手机不仅可以与其他用户交流通信，还可以浏览或处理各类信息。

2、在使用过程中，对于手机显示的感兴趣的内容，如用户对图片或应用界面中的某一些文字感兴趣，用户可通过应用的文本识别功能，以识别图片或界面中的文字。通常文本识别功能是基于光学字符识别(optical character recognition，ocr)技术来实现的。以图片为例，应用可基于ocr技术识别图片中的文字，并输出识别结果。但是，对于包含截断文本的文本识别场景，目前的ocr技术对文本识别后的输出结果与原文的差异较大，影响用户体验。

技术实现思路

1、为了解决上述技术问题，本技术提供一种文本识别方法及电子设备。在该方法中，电子设备可基于文本区域的图像与文本内容，输出满足用户需求的文本识别结果。

2、第一方面，本技术实施例提供一种文本识别方法。该方法包括：电子设备对待识别对象进行文本区域检测，得到第一文本区域的图像，其中，第一文本区域中包括文本内容。电子设备对获取到的第一文本区域进行文本内容识别，得到第一文本内容。接着，电子设备基于第一文本区域的图像与第一文本内容进行分类，得到分类结果。随后，电子设备基于分类结果，显示第一文本区域的文本识别结果。显示文本识别结果的步骤可以具体包括：若分类结果为第一分类，文本识别结果过滤了第一文本内容。若分类结果为第二分类，文本识别结果包括第一文本内容修正后的文本内容。若分类结果为第三分类，文本识别结果包括第一文本内容。这样，电子设备可通过对图像信息(即文本区域的图像)和文字信息(即文本内容)进行综合考量，可以在文本区域中包含的文本内容缺失较多的情况下，将文本内容识别的结果(即第一文本内容)过滤。而在文本内容缺失较少的情况下，输出修正后的结果。并且可以在文本内容未缺失的情况下，输出对应的文本。从而能够在文本识别结果中呈现是正确的、语义通顺的结果，而将语义错误的结果(即文本内容)滤除，从而能得到拟人化的复杂决策效果，以提升用户使用体验。

3、示例性的，所述文本识别结果可选地为图4中的文本识别结果显示框405。也就是说，如果文本识别结果为第一分类指示的结果(即过滤)，则文本识别结果显示框405中第一文本区域对应的结果为空，即不显示第一文本区域所对应的文本内容识别结果(即第一文本内容)。如果文本识别结果为第二分类指示的结果(即输出修正的文本内容)或者第三分类指示的结果(即直接输出文本内容)，则文本识别结果显示框405中包括第一文本区域对应的修正后的文本内容或者是第一文本区域的文本内容。

4、示例性的，所述文本识别结果可以是文本区域自身对应的结果。例如，如果文本识别结果为第一分类指示的结果(即过滤)，则电子设备显示的第一文本区域对应的文本识别结果为空(可以是空白，也可以不留空白)。如果文本识别结果为第二分类指示的结果(即输出修正的文本内容)或者第三分类指示的结果(即直接输出文本内容)，则电子设备可在文本识别结果显示框405中显示第一文本区域对应的文本内容(可以是修改后的，也可以是文本内容识别后的结果)。

5、示例性的，分类结果可选地为一个数值，该数值用于表示分类项。

6、示例性的，分类结果也可以包括3个数值，最大数值对应的分类即为第一文本区域对应的分类。

7、根据第一方面，电子设备基于第一文本区域的图像与第一文本内容进行分类，得到分类结果，包括：电子设备基于第一文本区域的图像与第一文本内容，得到中间表征信息。电子设备对中间表征信息进行分类，得到分类结果。这样，电子设备利用高维多模态语义信息对不同的输入组合进行更为精细化的决策，从而能得到拟人化的复杂决策效果。

8、示例性的，中间表征信息可以称为多模态信息。

9、示例性的，中间表征信息可以用于表征第一文本区域的图像的图像特征与第一文本内容的文本特征。

10、根据第一方面，或者以上第一方面的任意一种实现方式，电子设备对中间表征信息进行分类，得到分类结果，包括：电子设备通过分类模型对中间表征信息进行分类，得到分类结果。这样，电子设备可通过预先训练好的分类模型，对中间表征信息进行分类，以得到对应的分类结果。

11、根据第一方面，或者以上第一方面的任意一种实现方式，电子设备基于分类结果，显示第一文本区域的文本识别结果之前，还包括：电子设备对中间表征信息进行修正，得到第一文本内容修正后的文本内容。示例性的，电子设备对中间表征信息进行分类之前、同时或者之后，对中间表征信息进行修正以得到修正后的文本内容。电子设备可基于分类结果，确定是否输出修正后的文本内容。示例性的，如果不需要输出修正后的文本内容，例如分类结果为第一分类或者第三分类，则丢弃修正后的文本内容。

12、根据第一方面，或者以上第一方面的任意一种实现方式，电子设备对中间表征信息进行修正，得到修正后的目标文本内容，包括：电子设备通过修正模型对中间表征信息进行修正，得到第一文本内容修正后的文本内容。这样，电子设备可通过预先训练好的修正模型对中间表征信息进行修正，从而得到修正后的文本内容。

13、根据第一方面，或者以上第一方面的任意一种实现方式，电子设备基于第一文本区域的图像与第一文本内容，得到中间表征信息，包括：电子设备对第一文本区域的图像进行图像编码，得到第一图像编码信息。电子设备对第一文本内容进行文本编码，得到第一文本编码信息。电子设备通过多模态编码模型对第一图像编码信息与第一文本编码信息进行多模态编码，得到中间表征信息。这样，电子设备通过文本区域的图像以及文本内容进行编码，可得到更高维的语义信息。电子设备可通过预先训练好的多模态编码模型，对第一图像编码信息与第一文本编码信息进行多模态编码，以得到具有高维语义的中间表征信息。

14、根据第一方面，或者以上第一方面的任意一种实现方式，多模态编码模型、分类模型和修正模型组成神经网络，神经网络的训练数据包括第二文本区域和与第二文本区域对应的第二文本内容，以及第三文本区域和与第三文本区域对应的第三文本内容；第二文本区域中包括部分缺失的文本内容，第三文本区域中的文本内容为完整文本内容。这样，可通过输入不同类型(包括文字缺失和不缺失的文本区域)的文本区域的图像和文本内容，可以对神经网络进行循环训练，以使得神经网络能够完成对应的功能，即能够对文本区域的图像和文本内容进行融合、分类以及修正。

15、根据第一方面，或者以上第一方面的任意一种实现方式，第一文本区域的文本识别结果显示于文本识别区域中，文本识别区域中还包括待识别对象中的第三文本区域对应的文本内容。这样，本技术中的文本识别方法可以实现对文本内容的不同处理方式，即，最终显示的文本识别结果均是语意连贯的文本内容。对于文字内容识别结果中语义不连贯的文本内容，采用过滤或者是修正的方式，以避免语义不连贯的文本内容对文本识别结果的影响。

16、根据第一方面，或者以上第一方面的任意一种实现方式，若第一文本区域中包括部分缺失的文本内容，文本识别结果为第一分类或第二分类。示例性的，部分缺失的文本内容可以为文本区域中的每个文字均缺失部分信息，例如可以是缺失上半部，也可以是缺失下半部分。是心灵的，部分缺失的文本也可以是文本区域中的至少一个文字缺失部分信息。

17、根据第一方面，或者以上第一方面的任意一种实现方式，第一文本内容表达的语义与第一文本区域中的文本内容表达的语义不相同。这样，本技术实施例中可以对文本内容识别结果进行筛选，以过滤或修正与原有语义不相同的文本内容，从而提升用户使用体验。

18、根据第一方面，或者以上第一方面的任意一种实现方式，待识别对象为图片、网页或文档。

19、第二方面，本技术实施例提供一种文本识别方法。该方法包括：电子设备对待识别对象进行文本区域检测，得到第一文本区域的图像；第一文本区域中包括文本内容。电子设备对第一文本区域进行文本内容识别，得到第一文本内容。电子设备基于第一文本区域的图像与第一文本内容，显示第一文本区域的文本识别结果。电子设备基于第一文本区域的图像与第一文本内容，显示第一文本区域的文本识别结果，包括：若第一文本区域的图像表征第一文本区域包括部分缺失的文本内容且第一文本内容为语意连贯的文本内容，或者，第一文本区域的图像表征第一文本区域不包括部分缺失的文本内容，文本识别结果包括第一文本内容；若第一文本区域的图像表征第一文本区域包括部分缺失的文本内容，且第一文本内容包括语义错误的文本内容，文本识别结果过滤了第一文本内容或者文本识别结果包括第一文本内容修正后的文本内容。这样，电子设备可通过对图像信息(即文本区域的图像)和文字信息(即文本内容)进行综合考量，可以在文本区域中包含的文本内容缺失较多的情况下，将文本内容识别的结果(即第一文本内容)过滤。而在文本内容缺失较少的情况下，输出修正后的结果。并且可以在文本内容未缺失的情况下，输出对应的文本。从而能够在文本识别结果中呈现是正确的、语义通顺的结果，而将语义错误的结果(即文本内容)滤除，从而能得到拟人化的复杂决策效果，以提升用户使用体验。

20、示例性的，电子设备可基于文本区域的图像，检测文本区域中的文本内容是否被截断，即是否包括缺失内容的文本。一个示例中，如果文本内容未被截断，则可以直接输出第一文本内容。另一个示例中，如果文本内容被截断，则检测第一文本内容的语义是否连贯。若第一文本内容的语义连贯，则可以直接输出第一文本内容。若第一文本内容的语义不连贯，则进一步检测第一文本内容是否可被修改。若第一文本内容可被修改，则输出修改后的文本内容，若第一文本内容不可被修改，则过滤第一文本内容。

21、根据第二方面，电子设备基于第一文本区域的图像与第一文本内容，显示第一文本区域的文本识别结果，包括：若第一文本区域的图像表征第一文本区域包括部分缺失的文本内容，且第一文本内容包括语义不连贯的文本内容，电子设备检测第一文本内容是否可被修正。若第一文本内容不可被修正，文本识别结果过滤了第一文本内容。若第一文本内容可被修正，文本识别结果包括第一文本内容修正后的文本内容。这样，电子设备在检测到第一文本区域中的文本内容被截断，并且第一文本内容的语义不连贯的情况下，可以进一步检测第一文本内容是否可以被修正。如果可以被修正，则电子设备可以对第一文本内容进行修正，并输出修正后的文本内容。如果不可以被修正，则电子设备过滤第一文本内容。也就是说，电子设备显示的第一文本区域的文本识别结果中是空，或者是修正后的文本内容，或者是原本语义连贯的文本内容，以避免文本内容识别结果错误对用户使用的影响。

22、根据第二方面，或者以上第二方面的任意一种实现方式，若第一文本内容可被修正，方法还包括：电子设备通过修正模型对第一文本内容进行修正，得到第一文本内容修正后的文本内容。这样，电子设备可以通过预先训练好的修正模型对第一文本内容进行修正，以得到语意连贯的文本内容。

23、根据第二方面，或者以上第二方面的任意一种实现方式，电子设备基于第一文本区域的图像与第一文本内容，显示第一文本区域的文本识别结果，包括：电子设备通过分类模型对第一文本区域的图像进行分类，得到分类结果；分类结果用于指示第一文本区域中是否包括部分缺失的文本内容。这样，电子设备可以通过预先训练好的分类模型对文本区域的图像进行分类，以检测文本区域中的文本内容是否被截断。

24、根据第二方面，或者以上第二方面的任意一种实现方式，若第一文本区域的图像表征第一文本区域包括部分缺失的文本内容，电子设备基于第一文本区域的图像与第一文本内容，显示第一文本区域的文本识别结果，包括：电子设备通过语义模型对第一文本内容进行语义分析，得到语义分析结果；语义分析结果用于指示第一文本内容是否包括语意错误的文本内容。这样，电子设备可以通过预先训练好的语义模型，对文本内容进行语义分析，以得到语义分析结果。

25、示例性的，语义分析结果可以是一个数值，电子设备可以预先设置语义连贯阈值，阈值用于指示文本内容的语义连贯性。若语义分析结果的数值大于或等于阈值，则第一文本内容的语义连贯，若语义分析结果的数值小于阈值，则第一文本内容的语义不连贯。

26、根据第二方面，或者以上第二方面的任意一种实现方式，语义分析结果还用于指示第一文本内容是否可被修正，电子设备基于第一文本区域的图像与第一文本内容，显示第一文本区域的文本识别结果，包括：电子设备基于语义分析结果，确定第一文本内容是否可被修改。电子设备可以设置修正阈值，修正阈值与语义连贯阈值不相同。若语义分析结果的数值大于或等于修正阈值，则第一文本内容可被修正。若语义分析结果的数值小于修正阈值，则第一文本内容不可被修正。

27、根据第二方面，或者以上第二方面的任意一种实现方式，修正模型、分类模型、语义模型组成神经网络，神经网络的训练数据包括第二文本区域和与第二文本区域对应的第二文本内容，以及第三文本区域和与第三文本区域对应的第三文本内容；第二文本区域中包括部分缺失的文本内容，第三文本区域中的文本内容为完整文本内容。这样，可通过输入不同类型(包括文字缺失和不缺失的文本区域)的文本区域的图像和文本内容，可以对神经网络进行循环训练，以使得神经网络能够完成对应的功能，即能够对文本区域的图像和文本内容进行截断判断、语义分析以及修正。

28、根据第二方面，或者以上第二方面的任意一种实现方式，第一文本区域的文本识别结果显示于文本识别区域中，文本识别区域中还包括待识别对象中的第三文本区域对应的文本内容。

29、根据第二方面，或者以上第二方面的任意一种实现方式，语义错误的文本内容表达的语义与第一文本区域中对应的文本内容表达的语义不相同。

30、根据第二方面，或者以上第二方面的任意一种实现方式，待识别对象为图片、网页或文档。

31、第三方面，本技术实施例提供一种电子设备。该电子设备包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得电子设备执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

32、第四方面，本技术实施例提供一种电子设备。该电子设备包括：一个或多个处理器；存储器；以及一个或多个计算机程序，其中一个或多个计算机程序存储在存储器上，当计算机程序被一个或多个处理器执行时，使得电子设备执行第二方面或第二方面的任意可能的实现方式中的方法的指令。

33、第五方面，本技术实施例提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

34、第六方面，本技术实施例提供了一种计算机可读介质，用于存储计算机程序，该计算机程序包括用于执行第二方面或第二方面的任意可能的实现方式中的方法的指令。

35、第七方面，本技术实施例提供了一种计算机程序，该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

36、第八方面，本技术实施例提供了一种计算机程序，该计算机程序包括用于执行第二方面或第二方面的任意可能的实现方式中的方法的指令。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：滕益华吴觊豪洪芳宇
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：数据流中的数据读取方法与流程
上一篇：包括由复合材料制成的结构的叶片及相关的制造方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。