本发明涉及光学字符识别,具体涉及一种基于增强现实的实时文本识别与交互方法。
背景技术:
1、增强现实(ar)技术是一种将虚拟信息与现实世界相结合的技术。近年来,随着ar技术的不断发展,其在各个领域的应用也越来越广泛。然而,在ar环境中实现实时的文本识别与交互功能仍然是一个技术难题。传统的光学字符识别(ocr)系统主要专注于从静态图像中识别文本,而忽略了ar环境中的动态性和实时性要求。因此,将ocr技术与ar技术相结合,提供实时的文本识别与交互功能,是当前技术领域迫切需要解决的问题。在现有的ar应用中,大多数仍然侧重于图像和视频的增强,而忽略了与文本的交互。这使得用户无法在ar环境中实时获取、识别和理解文本信息,限制了ar技术的应用范围。因此,开发一种能够实时识别和交互文本的方法,对于拓展ar技术的应用领域、提高用户体验具有重要意义。
技术实现思路
1、针对现有技术中的缺陷,本发明提供一种基于增强现实的实时文本识别与交互方法。
2、一方面,一种基于增强现实的实时文本识别与交互方法,包括:
3、前端获取真实环境中的文本图像,从所述文本图像中提取目标文本区域;
4、后端利用第一预设模型从所述目标文本区域中检测出文本区,利用第二预设模型对所述文本区进行字符识别,获取文本内容,将所述文本内容通过发送给前端;
5、前端在ar环境中对所述文本内容进行可视化展示。
6、作为优选的,所述前端基于a-frame技术构建。
7、作为优选的,在所述文本图像中标记文本区域,包括:
8、从所述文本图像中提取目标文本区域,包括:
9、从所述文本图像中识别出文本区域,高亮显示所述文本区域;
10、获取用户的区域选择指令;
11、根据所述区域选择指令从所述文本区域中确定出目标文本区域。
12、作为优选的,所述第一预设模型为dbnet深度学习模型,所述第二预设模型为crnn模型。
13、作为优选的,将所述文本内容通过发送给前端,之前还包括:按照预设格式对所述文本内容进行格式化。
14、作为优选的,前端在ar环境中对所述文本内容进行可视化展示,包括:
15、获取用户的第一文本交互指令;
16、在ar环境中执行所述第一文本交互指令;
17、其中,所述第一文本交互指令包括添加访问链接和翻译文本。
18、作为优选的,前端在ar环境中对所述文本内容进行可视化展示,还包括:
19、获取用户的第二文本交互指令;
20、根据所述第二文本交互指令对文本进行渲染,更新ar环境中文本内容的可视化展示效果;
21、其中,所述第一文本交互指令包括放大、缩小、旋转、拆分和拼装中的一种或者多种。
22、另一方面,一种基于增强现实的实时文本识别与交互系统,包括前端和后端;
23、所述前端用于获取真实环境中的文本图像,从所述文本图像中获取目标文本区域,将所述目标文本区域发送给后端;
24、所述后端用于利用第一预设模型从所述目标文本区域中检测出文本区,利用第二预设模型对所述文本区进行字符识别,获取文本内容,将所述文本内容通过发送给前端;
25、所述前端还用于在ar环境中对所述文本内容进行可视化展示。
26、本发明的有益效果体现在:本发明提供一种基于增强现实的实时文本识别与交互方法及系统,利用ocr技术和ar技术,实现了在真实环境中实时识别和交互文本的功能。通过前端和后端的协作,能够快速、准确地检测和识别文本内容,并在ar环境中进行可视化展示,提供了丰富的交互指令,使用户可以灵活地与文本内容进行互动。
1.一种基于增强现实的实时文本识别与交互方法,其特征在于,包括:
2.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法,其特征在于,所述前端基于a-frame技术构建。
3.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法,其特征在于,从所述文本图像中提取目标文本区域,包括:
4.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法,其特征在于,所述第一预设模型为dbnet深度学习模型,所述第二预设模型为crnn模型。
5.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法,其特征在于,将所述文本内容通过发送给前端,之前还包括:按照预设格式对所述文本内容进行格式化。
6.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法,其特征在于,前端在ar环境中对所述文本内容进行可视化展示,包括:
7.根据权利要求6所述的一种基于增强现实的实时文本识别与交互方法,其特征在于,前端在ar环境中对所述文本内容进行可视化展示,还包括:
8.一种基于增强现实的实时文本识别与交互系统,其特征在于,包括前端和后端;