文本识别方法及电子设备与流程

文档序号:36401832发布日期:2023-12-16 06:15阅读:33来源:国知局
文本识别方法及电子设备与流程

本技术实施例涉及终端设备领域,尤其涉及一种文本识别方法及电子设备。


背景技术:

1、随着通信技术的不断发展,手机等终端已成为人们日常生活中不可或缺的一部分。 用户利用手机不仅可以与其他用户交流通信,还可以浏览或处理各类信息。

2、在使用过程中,对于手机显示的感兴趣的内容,如用户对图片或应用界面中的某一 些文字感兴趣,用户可通过应用的文本识别功能,以识别图片或界面中的文字。通常文本识别功能是基于光学字符识别(optical character recognition,ocr)技术来实现的。以 图片为例,应用可基于ocr技术识别图片中的文字,并输出识别结果。但是,对于包含 截断文本的文本识别场景,目前的ocr技术对文本识别后的输出结果与原文的差异较 大,影响用户体验。


技术实现思路

1、为了解决上述技术问题,本技术提供一种文本识别方法及电子设备。在该方法中,电子设备可基于文本区域的图像与文本内容,输出满足用户需求的文本识别结果。

2、第一方面,本技术实施例提供一种文本识别方法。该方法包括:电子设备对待识别对象进行文本区域检测,得到第一文本区域的图像,其中,第一文本区域中包括文本内 容。电子设备对获取到的第一文本区域进行文本内容识别,得到第一文本内容。接着,电 子设备基于第一文本区域的图像与第一文本内容进行分类,得到分类结果。随后,电子 设备基于分类结果,显示第一文本区域的文本识别结果。显示文本识别结果的步骤可以 具体包括:若分类结果为第一分类,文本识别结果过滤了第一文本内容。若分类结果为 第二分类,文本识别结果包括第一文本内容修正后的文本内容。若分类结果为第三分类, 文本识别结果包括第一文本内容。这样,电子设备可通过对图像信息(即文本区域的图 像)和文字信息(即文本内容)进行综合考量,可以在文本区域中包含的文本内容缺失较 多的情况下,将文本内容识别的结果(即第一文本内容)过滤。而在文本内容缺失较少的 情况下,输出修正后的结果。并且可以在文本内容未缺失的情况下,输出对应的文本。从 而能够在文本识别结果中呈现是正确的、语义通顺的结果,而将语义错误的结果(即文 本内容)滤除,从而能得到拟人化的复杂决策效果,以提升用户使用体验。

3、示例性的,所述文本识别结果可选地为图4中的文本识别结果显示框405。也就是说,如果文本识别结果为第一分类指示的结果(即过滤),则文本识别结果显示框405中 第一文本区域对应的结果为空,即不显示第一文本区域所对应的文本内容识别结果(即 第一文本内容)。如果文本识别结果为第二分类指示的结果(即输出修正的文本内容)或 者第三分类指示的结果(即直接输出文本内容),则文本识别结果显示框405中包括第 一文本区域对应的修正后的文本内容或者是第一文本区域的文本内容。

4、示例性的,所述文本识别结果可以是文本区域自身对应的结果。例如,如果文本识别结果为第一分类指示的结果(即过滤),则电子设备显示的第一文本区域对应的文本 识别结果为空(可以是空白,也可以不留空白)。如果文本识别结果为第二分类指示的结 果(即输出修正的文本内容)或者第三分类指示的结果(即直接输出文本内容),则电子 设备可在文本识别结果显示框405中显示第一文本区域对应的文本内容(可以是修改后 的,也可以是文本内容识别后的结果)。

5、示例性的,分类结果可选地为一个数值,该数值用于表示分类项。

6、示例性的,分类结果也可以包括3个数值,最大数值对应的分类即为第一文本区域对应的分类。

7、根据第一方面,电子设备基于第一文本区域的图像与第一文本内容进行分类,得到 分类结果,包括:电子设备基于第一文本区域的图像与第一文本内容,得到中间表征信息。电子设备对中间表征信息进行分类,得到分类结果。这样,电子设备利用高维多模态 语义信息对不同的输入组合进行更为精细化的决策,从而能得到拟人化的复杂决策效果。

8、示例性的,中间表征信息可以称为多模态信息。

9、示例性的,中间表征信息可以用于表征第一文本区域的图像的图像特征与第一文本 内容的文本特征。

10、根据第一方面,或者以上第一方面的任意一种实现方式,电子设备对中间表征信息 进行分类,得到分类结果,包括:电子设备通过分类模型对中间表征信息进行分类,得到分类结果。这样,电子设备可通过预先训练好的分类模型,对中间表征信息进行分类,以 得到对应的分类结果。

11、根据第一方面,或者以上第一方面的任意一种实现方式,电子设备基于分类结果,显示第一文本区域的文本识别结果之前,还包括:电子设备对中间表征信息进行修正, 得到第一文本内容修正后的文本内容。示例性的,电子设备对中间表征信息进行分类之 前、同时或者之后,对中间表征信息进行修正以得到修正后的文本内容。电子设备可基 于分类结果,确定是否输出修正后的文本内容。示例性的,如果不需要输出修正后的文 本内容,例如分类结果为第一分类或者第三分类,则丢弃修正后的文本内容。

12、根据第一方面,或者以上第一方面的任意一种实现方式,电子设备对中间表征信息 进行修正,得到修正后的目标文本内容,包括:电子设备通过修正模型对中间表征信息进行修正,得到第一文本内容修正后的文本内容。这样,电子设备可通过预先训练好的 修正模型对中间表征信息进行修正,从而得到修正后的文本内容。

13、根据第一方面,或者以上第一方面的任意一种实现方式,电子设备基于第一文本区 域的图像与第一文本内容,得到中间表征信息,包括:电子设备对第一文本区域的图像进行图像编码,得到第一图像编码信息。电子设备对第一文本内容进行文本编码,得到 第一文本编码信息。电子设备通过多模态编码模型对第一图像编码信息与第一文本编码 信息进行多模态编码,得到中间表征信息。这样,电子设备通过文本区域的图像以及文 本内容进行编码,可得到更高维的语义信息。电子设备可通过预先训练好的多模态编码 模型,对第一图像编码信息与第一文本编码信息进行多模态编码,以得到具有高维语义 的中间表征信息。

14、根据第一方面,或者以上第一方面的任意一种实现方式,多模态编码模型、分类模型和修正模型组成神经网络,神经网络的训练数据包括第二文本区域和与第二文本区域对应的第二文本内容,以及第三文本区域和与第三文本区域对应的第三文本内容;第二 文本区域中包括部分缺失的文本内容,第三文本区域中的文本内容为完整文本内容。这 样,可通过输入不同类型(包括文字缺失和不缺失的文本区域)的文本区域的图像和文 本内容,可以对神经网络进行循环训练,以使得神经网络能够完成对应的功能,即能够 对文本区域的图像和文本内容进行融合、分类以及修正。

15、根据第一方面,或者以上第一方面的任意一种实现方式,第一文本区域的文本识别 结果显示于文本识别区域中,文本识别区域中还包括待识别对象中的第三文本区域对应 的文本内容。这样,本技术中的文本识别方法可以实现对文本内容的不同处理方式,即,最终显示的文本识别结果均是语意连贯的文本内容。对于文字内容识别结果中语义不连贯的文本内容,采用过滤或者是修正的方式,以避免语义不连贯的文本内容对文本识别 结果的影响。

16、根据第一方面,或者以上第一方面的任意一种实现方式,若第一文本区域中包括部 分缺失的文本内容,文本识别结果为第一分类或第二分类。示例性的,部分缺失的文本内容可以为文本区域中的每个文字均缺失部分信息,例如可以是缺失上半部,也可以是 缺失下半部分。是心灵的,部分缺失的文本也可以是文本区域中的至少一个文字缺失部 分信息。

17、根据第一方面,或者以上第一方面的任意一种实现方式,第一文本内容表达的语义 与第一文本区域中的文本内容表达的语义不相同。这样,本技术实施例中可以对文本内容识别结果进行筛选,以过滤或修正与原有语义不相同的文本内容,从而提升用户使用 体验。

18、根据第一方面,或者以上第一方面的任意一种实现方式,待识别对象为图片、网页或文档。

19、第二方面,本技术实施例提供一种文本识别方法。该方法包括:电子设备对待识别对象进行文本区域检测,得到第一文本区域的图像;第一文本区域中包括文本内容。电 子设备对第一文本区域进行文本内容识别,得到第一文本内容。电子设备基于第一文本 区域的图像与第一文本内容,显示第一文本区域的文本识别结果。电子设备基于第一文 本区域的图像与第一文本内容,显示第一文本区域的文本识别结果,包括:若第一文本 区域的图像表征第一文本区域包括部分缺失的文本内容且第一文本内容为语意连贯的文 本内容,或者,第一文本区域的图像表征第一文本区域不包括部分缺失的文本内容,文 本识别结果包括第一文本内容;若第一文本区域的图像表征第一文本区域包括部分缺失 的文本内容,且第一文本内容包括语义错误的文本内容,文本识别结果过滤了第一文本 内容或者文本识别结果包括第一文本内容修正后的文本内容。这样,电子设备可通过对 图像信息(即文本区域的图像)和文字信息(即文本内容)进行综合考量,可以在文本区 域中包含的文本内容缺失较多的情况下,将文本内容识别的结果(即第一文本内容)过 滤。而在文本内容缺失较少的情况下,输出修正后的结果。并且可以在文本内容未缺失 的情况下,输出对应的文本。从而能够在文本识别结果中呈现是正确的、语义通顺的结 果,而将语义错误的结果(即文本内容)滤除,从而能得到拟人化的复杂决策效果,以提 升用户使用体验。

20、示例性的,电子设备可基于文本区域的图像,检测文本区域中的文本内容是否被截 断,即是否包括缺失内容的文本。一个示例中,如果文本内容未被截断,则可以直接输出第一文本内容。另一个示例中,如果文本内容被截断,则检测第一文本内容的语义是否 连贯。若第一文本内容的语义连贯,则可以直接输出第一文本内容。若第一文本内容的 语义不连贯,则进一步检测第一文本内容是否可被修改。若第一文本内容可被修改,则 输出修改后的文本内容,若第一文本内容不可被修改,则过滤第一文本内容。

21、根据第二方面,电子设备基于第一文本区域的图像与第一文本内容,显示第一文本 区域的文本识别结果,包括:若第一文本区域的图像表征第一文本区域包括部分缺失的文本内容,且第一文本内容包括语义不连贯的文本内容,电子设备检测第一文本内容是 否可被修正。若第一文本内容不可被修正,文本识别结果过滤了第一文本内容。若第一 文本内容可被修正,文本识别结果包括第一文本内容修正后的文本内容。这样,电子设 备在检测到第一文本区域中的文本内容被截断,并且第一文本内容的语义不连贯的情况 下,可以进一步检测第一文本内容是否可以被修正。如果可以被修正,则电子设备可以 对第一文本内容进行修正,并输出修正后的文本内容。如果不可以被修正,则电子设备 过滤第一文本内容。也就是说,电子设备显示的第一文本区域的文本识别结果中是空, 或者是修正后的文本内容,或者是原本语义连贯的文本内容,以避免文本内容识别结果 错误对用户使用的影响。

22、根据第二方面,或者以上第二方面的任意一种实现方式,若第一文本内容可被修正, 方法还包括:电子设备通过修正模型对第一文本内容进行修正,得到第一文本内容修正 后的文本内容。这样,电子设备可以通过预先训练好的修正模型对第一文本内容进行修正,以得到语意连贯的文本内容。

23、根据第二方面,或者以上第二方面的任意一种实现方式,电子设备基于第一文本区 域的图像与第一文本内容,显示第一文本区域的文本识别结果,包括:电子设备通过分类模型对第一文本区域的图像进行分类,得到分类结果;分类结果用于指示第一文本区 域中是否包括部分缺失的文本内容。这样,电子设备可以通过预先训练好的分类模型对 文本区域的图像进行分类,以检测文本区域中的文本内容是否被截断。

24、根据第二方面,或者以上第二方面的任意一种实现方式,若第一文本区域的图像表 征第一文本区域包括部分缺失的文本内容,电子设备基于第一文本区域的图像与第一文 本内容,显示第一文本区域的文本识别结果,包括:电子设备通过语义模型对第一文本内容进行语义分析,得到语义分析结果;语义分析结果用于指示第一文本内容是否包括 语意错误的文本内容。这样,电子设备可以通过预先训练好的语义模型,对文本内容进 行语义分析,以得到语义分析结果。

25、示例性的,语义分析结果可以是一个数值,电子设备可以预先设置语义连贯阈值,阈值用于指示文本内容的语义连贯性。若语义分析结果的数值大于或等于阈值,则第一 文本内容的语义连贯,若语义分析结果的数值小于阈值,则第一文本内容的语义不连贯。

26、根据第二方面,或者以上第二方面的任意一种实现方式,语义分析结果还用于指示 第一文本内容是否可被修正,电子设备基于第一文本区域的图像与第一文本内容,显示第一文本区域的文本识别结果,包括:电子设备基于语义分析结果,确定第一文本内容 是否可被修改。电子设备可以设置修正阈值,修正阈值与语义连贯阈值不相同。若语义 分析结果的数值大于或等于修正阈值,则第一文本内容可被修正。若语义分析结果的数 值小于修正阈值,则第一文本内容不可被修正。

27、根据第二方面,或者以上第二方面的任意一种实现方式,修正模型、分类模型、语义 模型组成神经网络,神经网络的训练数据包括第二文本区域和与第二文本区域对应的第 二文本内容,以及第三文本区域和与第三文本区域对应的第三文本内容;第二文本区域中包括部分缺失的文本内容,第三文本区域中的文本内容为完整文本内容。这样,可通 过输入不同类型(包括文字缺失和不缺失的文本区域)的文本区域的图像和文本内容, 可以对神经网络进行循环训练,以使得神经网络能够完成对应的功能,即能够对文本区 域的图像和文本内容进行截断判断、语义分析以及修正。

28、根据第二方面,或者以上第二方面的任意一种实现方式,第一文本区域的文本识别 结果显示于文本识别区域中,文本识别区域中还包括待识别对象中的第三文本区域对应 的文本内容。

29、根据第二方面,或者以上第二方面的任意一种实现方式,语义错误的文本内容表达 的语义与第一文本区域中对应的文本内容表达的语义不相同。

30、根据第二方面,或者以上第二方面的任意一种实现方式,待识别对象为图片、网页或文档。

31、第三方面,本技术实施例提供一种电子设备。该电子设备包括:一个或多个处理器; 存储器;以及一个或多个计算机程序,其中一个或多个计算机程序存储在存储器上,当计算机程序被一个或多个处理器执行时,使得电子设备执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

32、第四方面,本技术实施例提供一种电子设备。该电子设备包括:一个或多个处理器; 存储器;以及一个或多个计算机程序,其中一个或多个计算机程序存储在存储器上,当计算机程序被一个或多个处理器执行时,使得电子设备执行第二方面或第二方面的任意可能的实现方式中的方法的指令。

33、第五方面,本技术实施例提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面的任意可能的实现方式中的方法的指令。

34、第六方面,本技术实施例提供了一种计算机可读介质,用于存储计算机程序,该计算机程序包括用于执行第二方面或第二方面的任意可能的实现方式中的方法的指令。

35、第七方面,本技术实施例提供了一种计算机程序,该计算机程序包括用于执行第一 方面或第一方面的任意可能的实现方式中的方法的指令。

36、第八方面,本技术实施例提供了一种计算机程序,该计算机程序包括用于执行第二 方面或第二方面的任意可能的实现方式中的方法的指令。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1