显示设备、语音识别方法、装置及存储介质与流程

文档序号：37551103发布日期：2024-04-08 14:00阅读：12来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本技术实施例涉及显示，具体涉及一种显示设备、语音识别方法、装置及存储介质。

背景技术：

1、随着语音识别技术的发展，语音交互的应用场景越来越普遍。例如，在使用智能电视的过程中，用户可以通过智能电视的语音助手输入语音指令，使得智能电视对语音指令进行识别和分析，以识别语音指令对应的搜索结果，并向用户展示搜索结果。

2、然而，在语音识别的过程中，由于文字与拼音之间不是一一对应的关系，容易导致同音字识别混淆，影响语音识别的准确性。因此，语音识别的准确性有待提高。

技术实现思路

1、鉴于上述问题，本技术实施例提供了一种显示设备、语音识别方法、装置及存储介质，用于解决现有技术中语音识别的准确性较低的问题。

2、为达到上述目的，本技术的实施例采用如下技术方案：

3、根据本技术实施例的第一方面，提供了一种显示设备，包括：声音采集器，被配置为接收用户输入的语音指令；与声音采集器耦接的控制器，被配置为：响应于语音指令，获取屏幕截图；对屏幕截图进行图像识别和拼音转换，得到第一映射数据，第一映射数据包括至少一个第一关键词和至少一个第一拼音，一个第一拼音对应一个第一关键词；对语音指令进行语音识别，得到第一语音识别结果，第一语音识别结果包括第二关键词；在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果，其中，目标拼音为至少一个第一拼音中与第二关键词对应的第二拼音匹配的拼音。

4、在一种可选的方式中，第一关键词包括多个第一文字，第一拼音包括按照第一顺序排列的多个第三拼音，多个第三拼音分别与多个第一文字一一对应，第一顺序为多个第一文字在第一关键词中的位置指示的顺序；第二关键词包括多个第二文字，第二拼音包括按照第二顺序排列的多个第四拼音，多个第四拼音与多个第二文字一一对应，第二顺序为多个第二文字在第二关键词中的位置指示的顺序；控制器，还被配置为：在第一映射数据中存在与多个第四拼音对应的多个第三拼音，且与多个第三拼音的排序与多个第四拼音的排序一致的情况下，确定第一映射数据中存在目标拼音，且目标拼音包括与多个第四拼音对应的多个第三拼音。

5、在一种可选的方式中，控制器，具体被配置为：对屏幕截图进行特征提取，得到屏幕截图对应的图像特征；基于文字检测算法，对屏幕截图对应的图像特征进行文本检测，确定屏幕截图中的至少一个文本区域；基于文字识别算法，对屏幕截图中的至少一个文本区域进行文字识别，得到至少一个第一关键词；对至少一个第一关键词进行拼音转换，得到至少一个第一关键词对应的至少一个第一拼音。

6、在一种可选的方式中，控制器，具体被配置为：对语音指令进行特征提取，得到音频特征；通过目标声学模型和目标语言模型对音频特征进行处理，得到第一语音识别结果。

7、在一种可选的方式中，控制器，还被配置为：对第一语音识别结果进行分词处理，得到第二关键词；对第二关键词进行拼音转换，得到第二关键词对应的第二拼音。

8、在一种可选的方式中，显示设备还包括显示器，控制器，还被配置为：根据第二语音识别结果，确定第二语音识别结果对应的多媒体资源；控制显示器显示第二语音识别结果对应的多媒体资源。

9、在一种可选的方式中，显示设备还包括显示器，控制器，还被配置为：在第一映射数据中不存在目标拼音的情况下，根据第一语音识别结果，确定第一语音识别结果对应的多媒体资源；控制显示器显示第一语音识别结果对应的多媒体资源。

10、根据本技术实施例的第二方面，提供了一种语音识别方法，应用于本技术实施例第一方面所述的显示设备，该方法包括：响应于语音指令，获取屏幕截图；对屏幕截图进行图像识别和拼音转换，得到第一映射数据，第一映射数据包括至少一个第一关键词和至少一个第一拼音，一个第一拼音对应一个第一关键词；对语音指令进行语音识别，得到第一语音识别结果，第一语音识别结果包括第二关键词；在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果，其中，目标拼音为至少一个第一拼音中与第二关键词对应的第二拼音匹配的拼音。

11、在一种可选的方式中，第一关键词包括多个第一文字，第一拼音包括按照第一顺序排列的多个第三拼音，多个第三拼音分别与多个第一文字一一对应，第一顺序为多个第一文字在第一关键词中的位置指示的顺序；第二关键词包括多个第二文字，第二拼音包括按照第二顺序排列的多个第四拼音，多个第四拼音与多个第二文字一一对应，第二顺序为多个第二文字在第二关键词中的位置指示的顺序；在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词之前，该方法还包括：在第一映射数据中存在与多个第四拼音对应的多个第三拼音，且与多个第三拼音的排序与多个第四拼音的排序一致的情况下，确定第一映射数据中存在目标拼音，且目标拼音包括与多个第四拼音对应的多个第三拼音。

12、在一种可选的方式中，对屏幕截图进行图像识别和拼音转换，得到第一映射数据，包括：对屏幕截图进行特征提取，得到屏幕截图对应的图像特征；基于文字检测算法，对屏幕截图对应的图像特征进行文本检测，确定屏幕截图中的至少一个文本区域；基于文字识别算法，对屏幕截图中的至少一个文本区域进行文字识别，得到至少一个第一关键词；对至少一个第一关键词进行拼音转换，得到至少一个第一关键词对应的至少一个第一拼音。

13、在一种可选的方式中，对语音指令进行语音识别，得到第一语音识别结果，包括：对所述语音指令进行特征提取，得到音频特征；通过目标声学模型和目标语言模型对所述音频特征进行处理，得到所述第一语音识别结果。

14、在一种可选的方式中，在对语音指令进行语音识别，得到第一语音识别结果之后，该方法还包括：对第一语音识别结果进行分词处理，得到第二关键词；对第二关键词进行拼音转换，得到第二关键词对应的第二拼音。

15、在一种可选的方式中，在将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果之后，该方法还包括：根据第二语音识别结果，确定第二语音识别结果对应的多媒体资源；控制显示器显示第二语音识别结果对应的多媒体资源。

16、在一种可选的方式中，在对语音指令进行语音识别，得到第一语音识别结果之后，该方法还包括：在第一映射数据中不存在目标拼音的情况下，根据第一语音识别结果，确定第一语音识别结果对应的多媒体资源；控制显示器显示第一语音识别结果对应的多媒体资源。

17、根据本技术实施例的第三方面，提供了一种语音识别装置，该装置包括：获取模块，用于响应于语音指令，获取屏幕截图；处理模块，用于对屏幕截图进行图像识别和拼音转换，得到第一映射数据，第一映射数据包括至少一个第一关键词和至少一个第一拼音，一个第一拼音对应一个第一关键词；语音识别模块，用于对语音指令进行语音识别，得到第一语音识别结果，第一语音识别结果包括第二关键词；语音识别纠正模块，用于在第一映射数据中存在目标拼音的情况下，将第一语音识别结果中的第二关键词替换为目标拼音对应的目标关键词，得到第二语音识别结果，其中，目标拼音为至少一个第一拼音中与第二关键词对应的第二拼音匹配的拼音。

18、根据本技术实施例的第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令在显示设备上运行时，使得显示设备执行上述的语音识别方法的操作。

19、在本技术实施例中，由于显示设备显示的用户界面可以包括根据用户的使用习惯推荐的多媒体资源、以及新热的多媒体资源，因此，在接收到用户输入的语音指令时，可以获取屏幕截图，这样使得显示设备可以对屏幕截图进行图像识别和拼音转换，得到反映至少一个第一关键词与各第一关键词对应的第一拼音的对应关系的第一映射数据。同时，显示设备可以根据语音指令确定第一语音识别结果，并利用基于屏幕截图得到第一映射数据对第一语音识别结果中包括的第二关键词进行纠正，以得到更为准确的第二语音识别结果。也就是说，本技术实施例提供的语音识别方法，可以解决同音词识别容易混淆，以及新热内容的误识别率高的问题，进而可以提升显示设备的语音识别的准确性，用户体验更好。

20、上述说明仅是本技术实施例技术方案的概述，为了能够更清楚了解本技术实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本技术实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：任晓楠,崔保磊,冯瑞平,张大钊
技术所有人：海信视像科技股份有限公司
我是此专利的发明人

上一篇：一种浓香型酿酒大曲香味成分的数据处理方法与流程
上一篇：一种回复方法、装置和电子设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。