基于语音识别的智能界面交互方法及显示器与流程

文档序号:38560810发布日期:2024-07-05 11:31阅读:103来源:国知局

本技术涉及机器学习、语音处理领域,具体而言,涉及一种基于语音识别的智能界面交互方法及显示器。


背景技术:

1、在智能界面交互领域,用户与智能设备的交互方式正变得越来越多样化,其中,语音交互因其自然、便捷的特点而受到广泛关注。智能界面交互不仅要求系统能够准确识别用户的语音指令,还需要对用户的交互行为和交互环境进行深入理解,以实现更加智能化、个性化的交互体验。然而,传统的智能界面交互系统在面对复杂多变的交互场景和用户语音识别时,往往存在识别精度低的问题,严重影响了用户体验。随着智能设备的普及和人工智能技术的飞速发展,语音识别技术在人机交互领域扮演着越来越重要的角色。传统的语音识别系统往往在面对清晰语音时表现良好,但在处理模糊或嘈杂环境下的语音时,识别精度会大幅下降。这主要是因为传统的语音识别系统在设计时并未充分考虑到模糊语音的特性,导致其对模糊语音的表征能力有限。为了提高语音识别的鲁棒性和用户体验,研究人员开始探索能够同时处理清晰和模糊语音的新型语音识别技术,这些技术旨在从语音信号中提取更丰富、更稳健的特征信息,以便更准确地识别用户的交互意图。为了提高语音识别的鲁棒性和用户体验,研究人员开始探索能够同时处理清晰和模糊语音的新型语音识别技术。现有的语音检测神经网络架构在处理模糊语音时仍存在一些挑战。一方面,模糊语音往往包含大量的噪声和干扰信息,使得其特征提取变得困难;另一方面,传统的语音识别系统通常将清晰语音和模糊语音视为两种不同的输入类型,分别进行处理,这在一定程度上限制了模型的泛化能力和识别精度。


技术实现思路

1、本发明的目的在于提供一种基于语音识别的智能界面交互方法及显示器。本技术实施例是这样实现的:

2、第一方面,本技术实施例提供了一种基于语音识别的智能界面交互方法,所述方法包括:获取拟识别用户交互语音;基于语音检测神经网络中的基础表征信息挖掘组件,对所述拟识别用户交互语音进行基础表征信息挖掘操作,得到基础语音表征向量;基于所述语音检测神经网络中的清晰语音表征信息挖掘组件,对所述基础语音表征向量进行高级语音表征信息挖掘操作,得到清晰高级语音表征向量;基于所述语音检测神经网络中的模糊语音表征信息挖掘组件,对所述基础语音表征向量进行高级语音表征信息挖掘操作,得到模糊高级语音表征向量;基于所述语音检测神经网络中的条件特征组合器,基于所述基础语音表征向量,确定所述清晰高级语音表征向量和所述模糊高级语音表征向量分别对应的影响系数;基于所述清晰高级语音表征向量、所述模糊高级语音表征向量及其分别对应的影响系数,确定所述拟识别用户交互语音的目标语音表征向量;依据所述拟识别用户交互语音的目标语音表征向量进行语音识别处理。

3、可选地,所述语音检测神经网络中包括一个所述模糊语音表征信息挖掘组件;所述模糊语音表征信息挖掘组件对应目标语音模糊片段,所述模糊语音表征信息挖掘组件是依据具有所述目标语音模糊片段的用户交互语音调试得到的;所述基于所述语音检测神经网络中的条件特征组合器,基于所述基础语音表征向量,确定所述清晰高级语音表征向量和所述模糊高级语音表征向量分别对应的影响系数,包括:通过所述条件特征组合器,基于所述基础语音表征向量确定二元影响系数;所述二元影响系数中包括所述清晰高级语音表征向量对应的影响系数和所述模糊高级语音表征向量对应的影响系数;或者,所述语音检测神经网络中包括m个所述模糊语音表征信息挖掘组件,所述m>1;m个所述模糊语音表征信息挖掘组件分别对应不同的语音模糊片段,所述模糊语音表征信息挖掘组件是依据具有其对应的语音模糊片段的用户交互语音调试得到的;所述基于所述语音检测神经网络中的条件特征组合器,基于所述基础语音表征向量,确定所述清晰高级语音表征向量和所述模糊高级语音表征向量分别对应的影响系数,包括:基于所述条件特征组合器,基于所述基础语音表征向量确定n维影响系数;所述n维影响系数中包括所述清晰高级语音表征向量对应的影响系数和m个所述模糊高级语音表征向量分别对应的影响系数,m个所述模糊高级语音表征向量基于m个所述模糊语音表征信息挖掘组件确定,其中,n=m+1。

4、可选地,所述获取拟识别用户交互语音,包括:获取第一拟识别用户交互语音和第二拟识别用户交互语音;所述依据所述拟识别用户交互语音的目标语音表征向量进行语音识别处理,包括:依据所述第一拟识别用户交互语音的第一目标语音表征向量和所述第二拟识别用户交互语音的第二目标语音表征向量,确定所述第一拟识别用户交互语音和所述第二拟识别用户交互语音是否对应相同语音内容;所述第一目标语音表征向量和所述第二目标语音表征向量基于所述语音检测神经网络确定。

5、可选地,所述依据所述拟识别用户交互语音的目标语音表征向量进行语音识别处理,包括:在对照语音表征向量集合中,索引与所述目标语音表征向量满足共性度量阈值的目标对照语音表征向量;所述对照语音表征向量集合中包括多个对照语音内容分别对应的对照语音表征向量,所述对照语音表征向量基于所述语音检测神经网络基于所述对照语音内容的用户交互语音确定;基于所述目标对照语音表征向量分别对应的对照语音内容,确定所述拟识别用户交互语音对应的语音交互信息。

6、可选地,所述语音检测神经网络的调试过程包括以下步骤:依据第一调试知识模板库调试第一语音检测网络;所述第一调试知识模板库包括清晰用户交互语音和模糊用户交互语音,所述第一语音检测网络包括基础表征信息挖掘组件,所述基础表征信息挖掘组件用以对加载到所述第一语音检测网络的用户交互语音进行基础表征信息挖掘操作,得到调试基础语音表征向量;依据第二调试知识模板库调试第二语音检测网络中的清晰语音表征信息挖掘组件;所述第二调试知识模板库包括清晰用户交互语音,所述第二语音检测网络还包括所述第一语音检测网络中的基础表征信息挖掘组件,所述清晰语音表征信息挖掘组件用于对所述第二语音检测网络中的所述基础表征信息挖掘组件输出的调试基础语音表征向量进行高级语音表征信息挖掘操作,得到调试清晰高级语音表征向量;依据第三调试知识模板库调试第三语音检测网络中的模糊语音表征信息挖掘组件;所述第三调试知识模板库包括清晰用户交互语音和模糊用户交互语音,所述第三语音检测网络还包括所述第一语音检测网络中的基础表征信息挖掘组件,所述模糊语音表征信息挖掘组件用于对所述第三语音检测网络中的所述基础表征信息挖掘组件输出的调试基础语音表征向量进行高级语音表征信息挖掘操作,得到调试模糊高级语音表征向量;依据第四调试知识模板库调试第四语音检测网络中的条件特征组合器;所述第四调试知识模板库包括清晰用户交互语音和模糊用户交互语音,所述第四语音检测网络还包括所述第一语音检测网络中的基础表征信息挖掘组件、所述第二语音检测网络中的清晰语音表征信息挖掘组件、以及所述第三语音检测网络中的模糊语音表征信息挖掘组件,所述条件特征组合器用以依据所述第四语音检测网络中所述基础表征信息挖掘组件输出的调试基础语音表征向量,确定所述第四语音检测网络中所述清晰语音表征信息挖掘组件输出的调试清晰高级语音表征向量和所述模糊语音表征信息挖掘组件输出的调试模糊高级语音表征向量分别对应的影响系数;基于所述第一语音检测网络中的基础表征信息挖掘组件、所述第二语音检测网络中的清晰语音表征信息挖掘组件、所述第三语音检测网络中的模糊语音表征信息挖掘组件以及所述第四语音检测网络中的条件特征组合器,构建语音检测神经网络。

7、可选地,所述依据第一调试知识模板库调试第一语音检测网络,包括:基于所述第一语音检测网络,基于所述第一调试知识模板库中的第一语音模板,确定所述第一语音模板的第一语音表征向量;如果所述第一语音模板为清晰用户交互语音,则基于所述第一语音表征向量和第一清晰聚类质心,确定所述第一语音模板对应的推理置信度;如果所述第一语音模板为模糊用户交互语音,则基于所述第一语音表征向量和第一模糊聚类质心,确定所述第一语音模板对应的推理置信度;所述第一清晰聚类质心为所述第一调试知识模板库中的各第一语音内容的清晰用户交互语音聚类质心,所述第一模糊聚类质心为各所述第一语音内容的模糊用户交互语音聚类质心,所述推理置信度用以体现所述第一语音模板对应各所述第一语音内容的支持度;依据所述第一调试知识模板库中各所述第一语音模板分别对应的推理置信度和先验标记,调试所述第一语音检测网络。

8、可选地,所述依据第二调试知识模板库调试第二语音检测网络中的清晰语音表征信息挖掘组件,包括:通过所述第二语音检测网络,基于所述第二调试知识模板库中的第二语音模板,确定所述第二语音模板的第二语音表征向量;基于所述第二语音表征向量和第二清晰聚类质心,确定所述第二语音模板对应的推理置信度;所述第二清晰聚类质心为所述第二调试知识模板库中的各第二语音内容的清晰用户交互语音聚类质心,所述推理置信度用以体现所述第二语音模板对应各所述第二语音内容的支持度;依据所述第二调试知识模板库中各所述第二语音模板分别对应的推理置信度和先验标记,调试所述第二语音检测网络中的清晰语音表征信息挖掘组件。

9、可选地,所述依据第三调试知识模板库调试第三语音检测网络中的模糊语音表征信息挖掘组件,包括:通过所述第三语音检测网络,基于所述第三调试知识模板库中的第三语音模板,确定所述第三语音模板的第三语音表征向量;基于所述第三语音表征向量和第一融合聚类质心,确定所述第三语音模板对应的推理置信度;所述第一融合聚类质心为所述第三调试知识模板库中的各第三语音内容的融合语音聚类质心,所述融合语音聚类质心基于所述第三语音内容的清晰用户交互语音聚类质心和模糊用户交互语音聚类质心确定;所述推理置信度用以体现所述第三语音模板对应各所述第三语音内容的支持度;依据所述第三调试知识模板库中各所述第三语音模板分别对应的推理置信度和先验标记,调试所述第三语音检测网络中的模糊语音表征信息挖掘组件;或者,所述依据第三调试知识模板库调试第三语音检测网络中的模糊语音表征信息挖掘组件,包括:通过所述第三语音检测网络,基于所述第三调试知识模板库中的第三语音模板,确定所述第三语音模板的第三语音表征向量;基于所述第三语音表征向量和第三清晰聚类质心,确定所述第三语音模板对应的清晰推理置信度;基于所述第三语音表征向量和第二模糊聚类质心,确定所述第三语音模板对应的模糊推理置信度;所述第三清晰聚类质心为所述第三调试知识模板库中的各第三语音内容的清晰用户交互语音聚类质心,所述第二模糊聚类质心为各所述第三语音内容的模糊用户交互语音聚类质心,所述清晰推理置信度和所述模糊推理置信度用以体现所述第三语音模板对应各所述第三语音内容的支持度;依据所述第三调试知识模板库中各所述第三语音模板分别对应的清晰推理置信度、模糊推理置信度和先验标记,调试所述第三语音检测网络中的模糊语音表征信息挖掘组件。

10、可选地,所述依据第四调试知识模板库调试第四语音检测网络中的条件特征组合器,包括:通过所述第四语音检测网络,基于所述第四调试知识模板库中的第四语音模板,确定所述第四语音模板的第四语音表征向量;基于所述第四语音表征向量和第二融合聚类质心,确定所述第四语音模板对应的推理置信度;所述第二融合聚类质心为所述第四调试知识模板库中的各第四语音内容的融合语音聚类质心,所述融合语音聚类质心基于所述第四语音内容的清晰用户交互语音聚类质心和模糊用户交互语音聚类质心确定;所述推理置信度用以体现所述第四语音模板对应各所述第四语音内容的支持度;依据所述第四调试知识模板库中各所述第四语音模板分别对应的推理置信度和先验标记,调试所述第四语音检测网络中的条件特征组合器;或者,所述依据第四调试知识模板库调试第四语音检测网络中的条件特征组合器,包括:通过所述第四语音检测网络,基于所述第四调试知识模板库中的第四语音模板,确定所述第四语音模板的第四语音表征向量;基于所述第四语音表征向量和第四清晰聚类质心,确定所述第四语音模板对应的清晰推理置信度;基于所述第四语音表征向量和第三模糊聚类质心,确定所述第四语音模板对应的模糊推理置信度;所述第四清晰聚类质心为所述第四调试知识模板库中的各第四语音内容的清晰用户交互语音聚类质心,所述第三模糊聚类质心为各所述第四语音内容的模糊用户交互语音聚类质心,所述清晰推理置信度和所述模糊推理置信度用以体现所述第四语音模板对应各所述第四语音内容的支持度;依据所述第四调试知识模板库中各所述第四语音模板分别对应的清晰推理置信度、模糊推理置信度和先验标记,调试所述第四语音检测网络中的条件特征组合器。

11、另一方面,本技术提供一种显示器,包括: 一个或多个处理器;存储器;一个或多个计算机程序;其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如上所述的方法。

12、本技术的有益效果至少包括:本技术提供了一种基于语音识别的智能界面交互方法,在获取拟识别用户交互语音后,基于语音检测神经网络中的基础表征信息挖掘组件,对拟识别用户交互语音进行基础表征信息挖掘操作,得到对应的基础语音表征向量,此外,分别基于语音检测神经网络中的清晰语音表征信息挖掘组件以及模糊语音表征信息挖掘组件,从基础语音表征向量中挖掘高级表征信息,得到清晰高级语音表征向量和模糊高级语音表征向量,接着,基于语音检测神经网络中的条件特征组合器,确定清晰高级语音表征向量和模糊高级语音表征向量分别对应的影响系数,以及基于清晰高级语音表征向量、模糊高级语音表征向量和其分别对应的影响系数,确定拟识别用户交互语音的目标语音表征向量;依据拟识别用户交互语音对应的目标语音表征向量进行语音识别处理。

13、进一步地,本技术中的语音检测神经网络为新的架构,在语音检测神经网络的高层级架构中设置两个相互完善的表征信息挖掘组件(即清晰语音表征信息挖掘组件和模糊语音表征信息挖掘组件),令语音检测神经网络不但可以准确挖掘清晰用户交互语音的高级表征信息,还可以准确挖掘模糊用户交互语音的高级表征信息。因为清晰语音表征信息挖掘组件和模糊语音表征信息挖掘组件共享同一基础表征信息挖掘组件,都用于对基础表征信息挖掘组件输出的基础语音表征向量进行高级语音表征信息挖掘操作,同时高层级组件的特征维数少,换言之,清晰语音表征信息挖掘组件和模糊语音表征信息挖掘组件处理的基础语音表征向量的维数少,则设置清晰语音表征信息挖掘组件和模糊语音表征信息挖掘组件,对已有语音检测神经网络架构的扩张性小,消耗的资源和时间少。进一步地,基于设置于高层级组件的条件特征组合器,帮助两个表征信息挖掘组件分别获取的清晰高级语音表征向量和模糊高级语音表征向量赋予影响系数,同时完成特征交互整合,获得拟识别用户交互语音的目标语音表征向量。不管是拟识别用户交互语音为清晰用户交互语音还是模糊用户交互语音,目标语音表征向量都可以精准保证拟识别用户交互语音的特征信息,根据该向量进行的语音识别处理,不仅对清晰用户交互语音的识别精度高,还满足模糊用户交互语音的识别精度,为用户语音交互带来良好的体验。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!