一种智能眼镜、信息识别方法、装置和系统与流程

文档序号:42661750发布日期:2025-08-05 18:48阅读:57来源:国知局
技术简介:
本发明针对现有智能眼镜与服务器多次交互导致识别延迟的问题,提出通过本地识别模块解析用户语音意图,仅在确认图像识别需求后一次性发送语音与图像数据至服务器,实现单次交互完成识图,显著降低延迟并提升响应速度。
关键词:智能眼镜,信息识别

本发明涉及智能眼镜,尤其涉及一种智能眼镜、信息识别方法、装置和系统。


背景技术:

1、随着科技的发展,智能眼镜作为一种新型的可穿戴设备逐渐成为研究热点。随着计算机视觉技术和人工智能领域的显著进步,目前很多智能眼镜支持物体识别,极大地扩展了人类与数字世界的交互方式。

2、现有技术中,智能眼镜将用户的语音传给服务器,服务器通过识别用户意图是识图后,给智能眼镜下发拍照指令,智能眼镜拍照完成后,再次将图片回传到服务器进行识别,然后下发识别结果给智能眼镜。也就是说,智能眼镜与服务器之间需要多次进行数据交换才能完成识图,导致识别延迟,响应速度比较慢,影响用户体验。


技术实现思路

1、有鉴于此,本发明实施例的目的在于提供一种智能眼镜、信息识别方法、装置和系统,可以降低延迟,提升响应速度和用户体验。

2、第一方面,本发明实施例提供了一种智能眼镜的信息识别方法,所述方法包括:

3、获取用户的语音数据;

4、通过本地内置的识别模块对所述语音数据进行识别以获取语义信息,所述语义信息包括用户意图;

5、检测所述用户意图是否为图像识别;

6、响应于所述用户意图为图像识别,采集图像数据;

7、向服务器发送所述图像数据和所述语音数据,以使得所述服务器根据所述图像数据和所述语音数据获取识别结果;

8、接收所述识别结果并播放。

9、在一些实施例中,所述通过本地内置的识别模块对所述语音数据进行识别以获取用户意图包括:

10、通过语音识别技术获取所述语音数据对应的文本数据;

11、通过自然语音理解根据所述文本数据获取所述语义信息。

12、在一些实施例中,所述检测所述用户意图是否为图像识别包括:

13、检测所述用户意图是否为预定的唤醒词;

14、响应于所述用户意图是预定的唤醒词,确定所述用户意图为图像识别;

15、响应于所述用户意图不是预定的唤醒词,确定所述用户意图不是图像识别。

16、在一些实施例中,所述向服务器发送所述图像数据和所述语音数据包括:

17、向用户终端发送所述图像数据和所述语音数据,以使得所述用户终端将所述图像数据和所述语音数据转发给所述服务器。

18、在一些实施例中,所述接收所述识别结果并播放包括:

19、接收用户终端发送的识别结果,其中,所述服务器用于将所述识别结果发送至所述用户终端,所述用户终端将所述识别结果转发给所述智能眼镜;

20、通过语音的方式播放所述识别结果。

21、第二方面,本发明实施例提供了一种智能眼镜,所述智能眼镜包括:

22、麦克风,用于获取用户的语音数据;

23、摄像模组,用于获取图像数据;

24、处理器,用于接收所述麦克风发送的语音数据,对所述语音数据进行识别以获取语义信息,所述语义信息包括用户意图,检测所述用户意图是否为图像识别,响应于所述用户意图为图像识别,控制所述摄像模组采集图像数据;

25、通信模块,用于向服务器发送所述图像数据和所述语音数据,以使得所述服务器根据所述图像数据和所述语音数据获取识别结果,并接收所述识别结果;

26、播放模块,用于播放所述识别结果。

27、在一些实施例中,所述处理器用于通过语音识别技术获取所述语音数据对应的文本数据,通过自然语音理解根据所述文本数据获取所述语义信息。

28、在一些实施例中,所述处理器用于检测所述用户意图是否为预定的唤醒词,响应于所述用户意图是预定的唤醒词,确定所述用户意图为图像识别,响应于所述用户意图不是预定的唤醒词,确定所述用户意图不是图像识别。

29、在一些实施例中,所述通信模块用于向用户终端发送所述图像数据和所述语音数据,以使得所述用户终端将所述图像数据和所述语音数据转发给所述服务器。

30、在一些实施例中,所述通信模块还用于接收用户终端发送的识别结果,其中,所述服务器用于将所述识别结果发送至所述用户终端,所述用户终端将所述识别结果转发给所述智能眼镜。

31、在一些实施例中,所述播放模块用于通过语音的方式播放所述识别结果。

32、第三方面,本发明实施例提供了一种信息识别系统,所述系统包括:

33、智能眼镜,用于获取用户的语音数据,通过本地内置的识别模块对所述语音数据进行识别以获取语义信息,所述语义信息包括用户意图,检测所述用户意图是否为图像识别,响应于所述用户意图为图像识别,采集图像数据;

34、用户终端,用于接收所述智能眼镜发送的图像数据和所述语音数据;

35、服务器,用于接收所述用户终端发送的图像数据和语音数据,并根据所述图像数据和所述语音数据获取识别结果;

36、所述用户终端还用于接收所述服务器发送的识别结果,并将所述识别结果转发给所述智能眼镜;

37、所述智能眼镜还用于接收所述用户终端发送的识别结果并播放。

38、第四方面,本发明实施例提供了一种智能眼镜的信息识别装置,所述装置包括:

39、语音数据获取单元,用于获取用户的语音数据;

40、语音识别单元,用于通过本地内置的识别模块对所述语音数据进行识别以获取语义信息,所述语义信息包括用户意图;

41、判定单元,用于检测所述用户意图是否为图像识别;

42、图像数据采集单元,用于响应于所述用户意图为图像识别,采集图像数据;

43、发送单元,用于向服务器发送所述图像数据和所述语音数据,以使得所述服务器根据所述图像数据和所述语音数据获取识别结果;

44、接收单元,用于接收所述识别结果并播放。

45、第五方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。

46、本发明实施例的技术方案通过获取用户的语音数据,通过本地内置的识别模块对所述语音数据进行识别以获取语义信息,所述语义信息包括用户意图,检测所述用户意图是否为图像识别,响应于所述用户意图为图像识别,采集图像数据,向服务器发送所述图像数据和所述语音数据,以使得所述服务器根据所述图像数据和所述语音数据获取识别结果,接收所述识别结果并播放。由此,智能眼镜与服务器之间通过一次交互便可完成识图,可以降低延迟,提升响应速度和用户体验。



技术特征:

1.一种智能眼镜的信息识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过本地内置的识别模块对所述语音数据进行识别以获取用户意图包括:

3.根据权利要求1所述的方法,其特征在于,所述检测所述用户意图是否为图像识别包括:

4.根据权利要求1所述的方法,其特征在于,所述向服务器发送所述图像数据和所述语音数据包括:

5.根据权利要求1所述的方法,其特征在于,所述接收所述识别结果并播放包括:

6.一种智能眼镜,其特征在于,所述智能眼镜包括:

7.根据权利要求6所述的智能眼镜,其特征在于,所述处理器用于通过语音识别技术获取所述语音数据对应的文本数据,通过自然语音理解根据所述文本数据获取所述语义信息。

8.根据权利要求6所述的智能眼镜,其特征在于,所述处理器用于检测所述用户意图是否为预定的唤醒词,响应于所述用户意图是预定的唤醒词,确定所述用户意图为图像识别,响应于所述用户意图不是预定的唤醒词,确定所述用户意图不是图像识别。

9.根据权利要求6所述的智能眼镜,其特征在于,所述通信模块用于向用户终端发送所述图像数据和所述语音数据,以使得所述用户终端将所述图像数据和所述语音数据转发给所述服务器。

10.根据权利要求6所述的智能眼镜,其特征在于,所述通信模块还用于接收用户终端发送的识别结果,其中,所述服务器用于将所述识别结果发送至所述用户终端,所述用户终端将所述识别结果转发给所述智能眼镜。

11.根据权利要求6所述的智能眼镜,其特征在于,所述播放模块用于通过语音的方式播放所述识别结果。

12.一种信息识别系统,其特征在于,所述系统包括:

13.一种智能眼镜的信息识别装置,其特征在于,所述装置包括:

14.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。


技术总结
本发明实施例公开了一种智能眼镜、信息识别方法、装置和系统。通过获取用户的语音数据,通过本地内置的识别模块对所述语音数据进行识别以获取语义信息,所述语义信息包括用户意图,检测所述用户意图是否为图像识别,响应于所述用户意图为图像识别,采集图像数据,向服务器发送所述图像数据和所述语音数据,以使得所述服务器根据所述图像数据和所述语音数据获取识别结果,接收所述识别结果并播放。由此,智能眼镜与服务器之间通过一次交互便可完成识图,可以降低延迟,提升响应速度和用户体验。

技术研发人员:黄金龙
受保护的技术使用者:浙江未来精灵人工智能科技有限公司
技术研发日:
技术公布日:2025/8/4
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!