一种语音识别方法及装置的制造方法

文档序号：9728467阅读：521来源：国知局

一种语音识别方法及装置的制造方法
【技术领域】
[0001 ]本发明涉及信息处理技术领域，尤其涉及一种语音识别方法及装置。
【背景技术】
[0002]目前，随着电子科技的发展，语音输入越来越被人们推崇，语音输入是通过语音识别将人说话的内容转换为文本的一种输入方式。很多应用中的语音输入还局限在语音输入语音输出，还不能很好的将语音输入转化为文字。由于在实际应用中，语音识别面对的环境十分复杂，需要处理各种不同领域的说话内容，识别性能很难达到百分之百，尤其是对于一些特殊领域，例如医疗领域、金融领域、通信领域等，存在很多专业术语在语音输入中出现的几率较低，电子设备将说话的内容转换为文本时也很难准确地将语音转换为专业术语。
[0003]针对上述问题，相关技术人员逐渐将不同领域的专业术语或文章添加到通用语言数据库中，以使通用语言数据库能够识别各个领域的用户的语音输入内容。但是，这种方法将会使得通用语言数据库越来越庞大，承载的数据越来越多，很难有针对性地在各个领域中实施，且由于不同用户往往有不同的发声习惯，因此，仅采用一个通用语言数据库来识别不同用户的语音输入的准确率并不高，存在很大的提升空间。

【发明内容】

[0004]本发明实施例提供一种语音识别方法及装置，用于实现在确保语音识别的准确率的同时，能够减轻服务器的负载压力。
[0005]—种语音识别方法，包括以下步骤:
[0006]接收当前登录的用户输入的语音信息；
[0007]根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；
[0008]根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；
[0009]根据所述个性化语音模型，识别所述语音信息。
[0010]本发明实施例的一些有益效果可以包括:
[0011]上述技术方案，通过在用户登录后获取用户对应的参数配置文件，并根据参数配置文件和预设通用语音模型生成用户的个性化语音模型，进而识别用户输入的语音信息，不仅使得终端能够结合用户的个性化声学特征和语言特征来识别语音信息，从而提高语音识别的准确率，且使得服务器端无需存储每个用户的个性化语音模型，而只需存储每个用户的参数配置文件和一个通用语音模型即可，从而减轻了服务器的负载压力。
[0012]在一个实施例中，所述方法还包括:
[0013]采集所述用户的样本语音数据；
[0014]从所述样本语音数据中获取所述用户的个性化声学特征参数。
[0015]该实施例中，通过采集用户的样本语音数据来获取用户的个性化声学特征参数，使得用户的个性化声学特征参数更加准确，从而提高语音识别的准确率。
[0016]在一个实施例中，所述个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。
[0017]该实施例中，通过获取能够表征用户声学特征的参数，使得用户的个性化声学特征参数更加准确，从而提高语音识别的准确率。
[0018]在一个实施例中，所述方法还包括:
[0019]采集预设领域的特征数据，所述特征数据包括所述预设领域的特定术语、所述预设领域的文章、语义关联关系中的至少一种；
[0020]根据所述特征数据生成所述个性化语言特征参数。
[0021]该实施例中，通过采集预设领域的特征数据来生成用户的个性化语言特征参数，使得终端识别用户输入的语音信息时，能够准确识别出属于预设领域的内容，从而提高了语音识别的准确率。
[0022]在一个实施例中，所述预设通用语音模型包括通用声学模型和通用语言模型；所述根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型，包括:
[0023]结合所述个性化声学特征参数和所述通用声学模型，获得所述用户的个性化声学丰旲型;
[0024]结合所述个性化语言特征参数和所述通用语言模型，获得所述用户的个性化语言模型。
[0025]该实施例中，通过将个性化声学特征参数和通用声学模型进行结合，并将个性化语言特征参数和通用语言模型进行结合，使得终端识别语音信息时，不仅能根据通用语音模型进行识别，还能识别出用户个性化的声学特征及预设领域的语音内容，提高了语音识别的准确率。
[0026]在一个实施例中，所述根据所述个性化语音模型，识别所述语音信息，包括:
[0027]根据所述个性化声学模型，识别所述语音信息中的声音信息；
[0028]从所述个性化语言模型中匹配所述声音信息对应的文字；
[0029]将所述声音信息转化为所述文字。
[0030]该实施例中，通过个性化声学模型识别语音信息中的声音信息，并通过个性化语言模型将声音信息转化为文字，使得终端识别语音信息时，不仅能根据通用语音模型进行识别，还能识别出用户个性化的声学特征及预设领域的语音内容，提高了语音识别的准确率。
[0031]在一个实施例中，所述从所述个性化语言模型中匹配所述声音信息对应的文字，包括:
[0032]按照所述个性化语言模型中的优先级顺序，匹配所述声音信息对应的文字，其中，所述特征数据在所述个性化语言模型中的优先级最高。
[0033]该实施例中，能够按照个性化语言模型中的优先级顺序匹配声音信息对应的文字，使得用户输入的语音信息中包括预设领域的内容时，能够优先进行匹配，从而使得通用语音模型无法识别的语音内容也能被准确地识别，提高了语音识别的准确率。
[0034]在一个实施例中，所述方法还包括:
[0035]当检测到所述用户对所述当前登录帐号的注销操作时，释放所述用户的个性化语音模型。
[0036]该实施例中，能够在用户注销帐号时释放用户的个性化语音模型，使得当前识别语音信息的终端无需存储用户的个性化语音模型，而只需在用户每次登录时从服务器端获取用户的参数配置文件即可，从而不仅能够准确地识别出语音信息，还能避免终端的存储大数据的压力。
[0037]—种语音识别装置，其特征在于，包括:
[0038]接收模块，用于接收当前登录的用户输入的语音信息；
[0039]第一获取模块，用于根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；
[0040]第一生成模块，用于根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；
[0041 ]识别模块，用于根据所述个性化语音模型，识别所述语音信息。
[0042] 所述装置还包括:
[0043 ]第一采集模块，用于采集所述用户的样本语音数据；
[0044]第二获取模块，用于从所述样本语音数据中获取所述用户的个性化声学特征参数。
[0045]所述第一生成模块生成的个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。
[0046]所述装置还包括:
[0047]第二采集模块，用于采集预设领域的特征数据，所述特征数据包括所述预设领域的特定术语、所述预设领域的文章、语义关联关系中的至少一种；
[0048]第二生成模块，用于根据所述特征数据生成所述个性化语言特征参数。
[0049]所述预设通用语音模型包括通用声学模型和通用语言模型;所述第一生成模块包括:
[0050]第一结合子模块，用于结合所述个性化声学特征参数和所述通用声学模型，获得所述用户的个性化声学模型；
[0051]第二结合子模块，用于结合所述个性化语言特征参数和所述通用语言模型，获得所述用户的个性化语言模型。
[0052]所述识别模块包括:
[0053]识别子模块，用于根据所述个性化声学模型，识别所述语音信息中的声音信息；
[0054]匹配子模块，用于从所述个性化语言模型中匹配所述声音信息对应的文字；
[0055]转化子模块，用于将所述声音信息转化为所述文字。
[0056]所述匹配子模块包括:
[0057]匹配单元，用于按照所述个性化语言模型中的优先级顺序，匹配所述声音信息对应的文字，其中，所述特征数据在所述个性化语言模型中的优先级最高。
[0058]所述装置还包括:
[0059]释放模块，用于当检测到所述用户对所述当前登录帐号的注销操作时，释放所述用户的个性化语音模型。
[0060]本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0061]下面通过附图和实施例，对本发明的技术方案做进一步的详细

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：欧光欣;
技术所有人：北京云知声信息技术有限公司;
我是此专利的发明人