一种基于增强现实的实时文本识别与交互方法与流程

文档序号：37809402发布日期：2024-04-30 17:19阅读：6来源：国知局

本发明涉及光学字符识别，具体涉及一种基于增强现实的实时文本识别与交互方法。

背景技术：

1、增强现实(ar)技术是一种将虚拟信息与现实世界相结合的技术。近年来，随着ar技术的不断发展，其在各个领域的应用也越来越广泛。然而，在ar环境中实现实时的文本识别与交互功能仍然是一个技术难题。传统的光学字符识别(ocr)系统主要专注于从静态图像中识别文本，而忽略了ar环境中的动态性和实时性要求。因此，将ocr技术与ar技术相结合，提供实时的文本识别与交互功能，是当前技术领域迫切需要解决的问题。在现有的ar应用中，大多数仍然侧重于图像和视频的增强，而忽略了与文本的交互。这使得用户无法在ar环境中实时获取、识别和理解文本信息，限制了ar技术的应用范围。因此，开发一种能够实时识别和交互文本的方法，对于拓展ar技术的应用领域、提高用户体验具有重要意义。

技术实现思路

1、针对现有技术中的缺陷，本发明提供一种基于增强现实的实时文本识别与交互方法。

2、一方面，一种基于增强现实的实时文本识别与交互方法，包括：

3、前端获取真实环境中的文本图像，从所述文本图像中提取目标文本区域；

4、后端利用第一预设模型从所述目标文本区域中检测出文本区，利用第二预设模型对所述文本区进行字符识别，获取文本内容，将所述文本内容通过发送给前端；

5、前端在ar环境中对所述文本内容进行可视化展示。

6、作为优选的,所述前端基于a-frame技术构建。

7、作为优选的,在所述文本图像中标记文本区域，包括：

8、从所述文本图像中提取目标文本区域，包括：

9、从所述文本图像中识别出文本区域，高亮显示所述文本区域；

10、获取用户的区域选择指令；

11、根据所述区域选择指令从所述文本区域中确定出目标文本区域。

12、作为优选的,所述第一预设模型为dbnet深度学习模型，所述第二预设模型为crnn模型。

13、作为优选的,将所述文本内容通过发送给前端，之前还包括：按照预设格式对所述文本内容进行格式化。

14、作为优选的,前端在ar环境中对所述文本内容进行可视化展示，包括：

15、获取用户的第一文本交互指令；

16、在ar环境中执行所述第一文本交互指令；

17、其中，所述第一文本交互指令包括添加访问链接和翻译文本。

18、作为优选的,前端在ar环境中对所述文本内容进行可视化展示，还包括：

19、获取用户的第二文本交互指令；

20、根据所述第二文本交互指令对文本进行渲染，更新ar环境中文本内容的可视化展示效果；

21、其中，所述第一文本交互指令包括放大、缩小、旋转、拆分和拼装中的一种或者多种。

22、另一方面，一种基于增强现实的实时文本识别与交互系统，包括前端和后端；

23、所述前端用于获取真实环境中的文本图像，从所述文本图像中获取目标文本区域，将所述目标文本区域发送给后端；

24、所述后端用于利用第一预设模型从所述目标文本区域中检测出文本区，利用第二预设模型对所述文本区进行字符识别，获取文本内容，将所述文本内容通过发送给前端；

25、所述前端还用于在ar环境中对所述文本内容进行可视化展示。

26、本发明的有益效果体现在：本发明提供一种基于增强现实的实时文本识别与交互方法及系统，利用ocr技术和ar技术，实现了在真实环境中实时识别和交互文本的功能。通过前端和后端的协作，能够快速、准确地检测和识别文本内容，并在ar环境中进行可视化展示，提供了丰富的交互指令，使用户可以灵活地与文本内容进行互动。

技术特征：

1.一种基于增强现实的实时文本识别与交互方法，其特征在于，包括：

2.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法，其特征在于,所述前端基于a-frame技术构建。

3.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法，其特征在于,从所述文本图像中提取目标文本区域，包括：

4.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法，其特征在于,所述第一预设模型为dbnet深度学习模型，所述第二预设模型为crnn模型。

5.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法，其特征在于,将所述文本内容通过发送给前端，之前还包括：按照预设格式对所述文本内容进行格式化。

6.根据权利要求1所述的一种基于增强现实的实时文本识别与交互方法，其特征在于,前端在ar环境中对所述文本内容进行可视化展示，包括：

7.根据权利要求6所述的一种基于增强现实的实时文本识别与交互方法，其特征在于,前端在ar环境中对所述文本内容进行可视化展示，还包括：

8.一种基于增强现实的实时文本识别与交互系统，其特征在于，包括前端和后端；

技术总结
本发明公开了一种基于增强现实的实时文本识别与交互方法及系统，涉及光学字符识别技术领域，该方法包括：前端获取真实环境中的文本图像，从所述文本图像中提取目标文本区域；后端利用第一预设模型从所述目标文本区域中检测出文本区，利用第二预设模型对所述文本区进行字符识别，获取文本内容，将所述文本内容通过发送给前端；前端在AR环境中对所述文本内容进行可视化展示。该方法利用OCR技术和AR技术，实现了在真实环境中实时识别和交互文本的功能。通过前端和后端的协作，能够快速、准确地检测和识别文本内容，并在AR环境中进行可视化展示，提供了丰富的交互指令，使用户可以灵活地与文本内容进行互动。

技术研发人员：章惠龙,郭磊,王乐
受保护的技术使用者：北京龙耀视野科技有限公司
技术研发日：
技术公布日：2024/4/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章惠龙,郭磊,王乐
技术所有人：北京龙耀视野科技有限公司
我是此专利的发明人

上一篇：一种高保湿丙烯墨水生产工艺的制作方法
上一篇：一种再生胶脱硫装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。