语音识别方法、系统及计算机可读存储介质与流程

文档序号：37351817发布日期：2024-03-18 18:32阅读：33来源：国知局

本发明涉及语音识别，具体为语音识别方法、系统及计算机可读存储介质。

背景技术：

1、随着5g技术的不断发展，网络游戏逐渐的娱乐了我们的日常生活，全国不同各地的人们可以同在一个游戏中进行交流，但是由于全国各地都存在自己独特的语言库，不同的语言库中的语调不同且意思表达也不同，这就可能在一定程度上造成了误会。

2、现有的口音识别技术多使用多专家系统，每个专家规模庞大，参数量冗余，不能很好的根据口音分辨的难易程度快速调整模型。另外，每个口音必须有一个专家系统用来关注这个口音的有关信息，模型数据量大，而且由于现有技术对数据具有依赖性，因此数据的质量会影响模型的性能，造成模型的鲁棒性较差，此外大量的训练数据还会导致计算成本的增加，因此不利于模型的训练。

3、在各种游戏中应用这种方法进行多口音的识别需要占据大量的内存，还可能存在语音识别延迟、语音识别错误等问题，严重的影响用户的体验感。

技术实现思路

1、本发明的目的在于提供语音识别方法、系统及计算机可读存储介质，以解决上述背景技术中提出的对于带口音的语音存在识别不准确的问题。

2、为了解决上述技术问题，本发明提供如下技术方案：

3、语音识别方法，其语音指令识别步骤包括：

4、基于用户基础信息，确定用户的口音导向量集；

5、获取用户的语音数据信息，并输入至表征向量提取层利用口音编码器提取口音相关特征，根据提取口音相关特征构建用户口音特征向量；

6、将所述口音特征向量输入到自适应层，并以用户的口音导向量集作为初始指导选择正确的用户的口音导向量；

7、将用户的口音特征向量输入至识别层，以正确的用户口音导向量作为识别层引导向量，引导修正用户的口音特征向量并实现语音识别。

8、其中，口音编码器需要提取语音的特征向量，常用的方法包括i-vector、x-vector等并对这些提取的向量进行各种归一化操作，以使它们适合输入到神经网络中吗，接下来，这些向量会被输入到一个由多层神经网络组成的模型中，以提取高层次的特征信息。最后，通常需要使用一个全连接层将这些输入向量映射到对应的口音类别上，并使用softmax激活函数进行分类。

9、根据上述技术方案，所述用户基础信息包括用户注册手机号和用户的历史ip信息；根据用户注册手机号所属的注册地信息确定口音导向量a；对用户的历史ip信息进行统计分析，将ip天数超过α的ip地址保留，根据保留的ip地址确定其他的口音导向量，每一个ip地址对应着一个口音导向量。每个地域都有自己的口音特征，因此可以根据用户的常驻地址、户籍等信息初步判断用户的口音范围，一定程度上提高识别的效率。

10、根据上述技术方案，根据口音导向量集获取每个口音导向量对应的口音特征与表征向量提取层提取到的用户口音特征向量利用相似度选择正确的口音导向量，选取口音导向量集中相似度最大且相似度大于阈值α对应的口音导向量作为正确的口音导向量；若没有在口音导向量集中选取到正确的口音导向量，则在口音导向量数据库中选择正确的口音导向量。

11、根据上述技术方案，基于所述口音导向量数据库，将所述口音导向量集中相似度最高的导向量对应的数据点作为聚类中心a，计算所述口音导向量数据库中的每个口音导向量对应的数据点与聚类中心a的距离d，将距离d小于等于ω的数据点分配到聚类中心a对应的簇中；

12、计算聚类中心a对应的簇中的数据点对应的口音导向量与所述用户口音特征向量的相似度，将相似度最大对应的口音导向量作为正确的口音导向量。

13、根据上述技术方案，所述识别层包括自适应转换层和语音识别层。

14、根据上述技术方案，将用户口音特征向量输入至自适应转换层，利用口音导向量引导用户口音特征向量输入到自适应转换层中相应的音调层，利用音调转换公式进行转换；

15、所述音调转换公式a：a＝y(z)k⊙[f(z)k⊙z]；

16、其中，⊙表示元素级乘积、f(z)k表示口音导向量k对应的音调调整因子、y(z)k表示口音导向量k对应的语法调整因子、z表示口音相关特征。

17、所述音调调整因子是指方言和普通话关于音调的对应关系，例如普通话的一、二、三、四声调分别对应陕西方言的轻声、二声、四声和一声调。所述语法调整因子是指方言和普通话在说话逻辑习惯上的对应关系，例如山东方言常用倒装句。

18、根据上述技术方案，述语音识别层将自适应转换层调整的口音特征送入解码器中解码，利用训练好的语言模型辅助模型的解码。

19、包括一种语音识别系统，包括：

20、向量集确定模块，基于用户基础信息，确定用户的口音导向量集；

21、特征提取模块，获取用户的语音数据信息，并输入至表征向量提取层利用口音编码器提取口音相关特征；

22、导向量确定模块，将所述口音特征向量输入到自适应层，并以用户的口音导向量集作为初始指导选择正确的用户的口音导向量；

23、语音识别模块，将正确的用户口音导向量作为识别层的语音识别向量，指导音调相关特征输入至识别层的相应的转换识别函数模型进行语音识别。

24、还包括一种计算机可读存储介质，所述计算机可读存储介质中包括一种语音识别方法程序，所述语音识别方法程序被处理器执行时，实现如上述所述的语音识别方法的步骤。

25、与现有技术相比，本发明所达到的有益效果是：本发明考虑到了在实际的口音识别中，方言和普通话的发音是不一致的即存在音调的不一致性以及语法上的不一致性，根据地方口音的发音规则、语法逻辑与普通话之间的差异性，对用户的语音特征信息进行相应的修正，使得语音识别更加精准，同时在语音识别处理的过程中先对用户口音进行小范围的地域判断，若小范围中不存在该用户的地域口音，则再次在小范围内进行用于口音地域认定，在一定程度上提高了口音识别的效率。

技术特征：

1.语音识别方法，其特征在于，其语音指令识别步骤包括：

2.根据权利要求1所述的语音识别方法，其特征在于：所述用户基础信息包括用户注册手机号和用户的历史ip信息；根据用户注册手机号所属的注册地信息确定口音导向量a；对用户的历史ip信息进行统计分析，将ip天数超过α的ip地址保留，根据保留的ip地址确定其他的口音导向量，每一个ip地址对应着一个口音导向量。

3.根据权利要求1所述的语音识别方法，其特征在于：根据口音导向量集获取每个口音导向量对应的口音特征与表征向量提取层提取到的用户口音特征向量利用相似度选择正确的口音导向量，选取口音导向量集中相似度最大且相似度大于阈值α对应的口音导向量作为正确的口音导向量；若没有在口音导向量集中选取到正确的口音导向量，则在口音导向量数据库中选择正确的口音导向量。

4.根据权利要求3所述的语音识别方法，其特征在于，基于所述口音导向量数据库，将所述口音导向量集中相似度最高的导向量对应的数据点作为聚类中心a，计算所述口音导向量数据库中的每个口音导向量对应的数据点与聚类中心a的距离d，将距离d小于等于ω的数据点分配到聚类中心a对应的簇中；

5.根据权利要求1所述的语音识别方法，其特征在于，所述识别层包括自适应转换层和语音识别层。

6.根据权利要求5所述的语音识别方法，其特征在于，将用户口音特征向量输入至自适应转换层，利用口音导向量引导用户口音特征向量输入到自适应转换层中相应的音调层，利用音调转换公式进行转换；

7.根据权利要求5所述的语音识别方法，其特征在于，所述语音识别层将自适应转换层调整的口音特征送入解码器中解码，利用训练好的语言模型辅助模型的解码。

8.语音识别系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种语音识别方法程序，所述语音识别方法程序被处理器执行时，实现如权利要求1至7中任一项所述的语音识别方法的步骤。

技术总结
本发明公开了语音识别方法、系统及计算机可读存储介质，属于语音识别技术领域。本发明基于用户基础信息，确定用户的口音导向量集，并获取用户的语音数据信息，并输入至表征向量提取层利用口音编码器提取口音相关特征，根据提取口音相关特征构建用户口音特征向量；将所述口音特征向量输入到自适应层，并以用户的口音导向量集作为初始指导选择正确的用户的口音导向量；将用户的口音特征向量输入至识别层，以正确的用户口音导向量作为识别层引导向量，引导修正用户的口音特征向量并进行语音识别。本发明能够在一定程度上提高语音识别的效率和准确度。

技术研发人员：缪玉林,汤海云
受保护的技术使用者：南通七仟网络科技有限公司
技术研发日：
技术公布日：2024/3/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：缪玉林,汤海云
技术所有人：南通七仟网络科技有限公司
我是此专利的发明人