一种语音识别方法及装置的制造方法_3

文档序号：9728467阅读：来源：国知局

模型和通用语言模型;第一生成模块53包括:
[0115]第一结合子模块531，用于结合个性化声学特征参数和通用声学模型，获得用户的个性化声学模型。
[0116]第二结合子模块532，用于结合个性化语言特征参数和通用语言模型，获得用户的个性化语言模型。
[0117]在一个实施例中，如图9所示，识别模块54包括:
[0118]识别子模块541，用于根据个性化声学模型，识别语音信息中的声音信息。
[0119]匹配子模块542，用于从个性化语言模型中匹配声音信息对应的文字。
[0120]转化子模块543，用于将声音信息转化为文字。
[0121]在一个实施例中，匹配子模块542包括:
[0122]匹配单元，用于按照个性化语言模型中的优先级顺序，匹配声音信息对应的文字，其中，特征数据在个性化语言模型中的优先级最高。
[0123]在一个实施例中，上述装置还包括:
[0124]释放模块，用于当检测到用户对当前登录帐号的注销操作时，释放用户的个性化语音模型。
[0125]采用本发明实施例提供的装置，通过在用户登录后获取用户对应的参数配置文件，并根据参数配置文件和预设通用语音模型生成用户的个性化语音模型，进而识别用户输入的语音信息，不仅使得终端能够结合用户的个性化声学特征和语言特征来识别语音信息，从而提高语音识别的准确率，且使得服务器端无需存储每个用户的个性化语音模型，而只需存储每个用户的参数配置文件和一个通用语音模型即可，从而减轻了服务器的负载压力。
[0126]本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0127]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0128]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0129]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0130]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种语音识别方法，其特征在于，包括: 接收当前登录的用户输入的语音信息；根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；根据所述个性化语音模型，识别所述语音信息。2.根据权利要求1所述的方法，其特征在于，所述方法还包括: 采集所述用户的样本语音数据；从所述样本语音数据中获取所述用户的个性化声学特征参数。3.根据权利要求1或2所述的方法，其特征在于，所述个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。4.根据权利要求1所述的方法，其特征在于，所述方法还包括: 采集预设领域的特征数据，所述特征数据包括所述预设领域的特定术语、所述预设领域的文章、语义关联关系中的至少一种；根据所述特征数据生成所述个性化语言特征参数。5.根据权利要求1所述的方法，其特征在于，所述预设通用语音模型包括通用声学模型和通用语言模型；所述根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型，包括: 结合所述个性化声学特征参数和所述通用声学模型，获得所述用户的个性化声学模型；结合所述个性化语言特征参数和所述通用语言模型，获得所述用户的个性化语言模型。6.根据权利要求4所述的方法，其特征在于，所述根据所述个性化语音模型，识别所述语音信息，包括: 根据所述个性化声学模型，识别所述语音信息中的声音信息；从所述个性化语言模型中匹配所述声音信息对应的文字；将所述声音信息转化为所述文字。7.根据权利要求6所述的方法，其特征在于，所述从所述个性化语言模型中匹配所述声音信息对应的文字，包括: 按照所述个性化语言模型中的优先级顺序，匹配所述声音信息对应的文字，其中，所述特征数据在所述个性化语言模型中的优先级最高。8.根据权利要求1所述的方法，其特征在于，所述方法还包括: 当检测到所述用户对所述当前登录帐号的注销操作时，释放所述用户的个性化语音模型。9.一种语音识别装置，其特征在于，包括: 接收模块，用于接收当前登录的用户输入的语音信息；第一获取模块，用于根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；第一生成模块，用于根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；识别模块，用于根据所述个性化语音模型，识别所述语音信息。10.根据权利要求9所述的装置，其特征在于，所述装置还包括: 第一采集模块，用于采集所述用户的样本语音数据；第二获取模块，用于从所述样本语音数据中获取所述用户的个性化声学特征参数。11.根据权利要求9或10所述的装置，其特征在于，所述第一生成模块生成的个性化声学特征参数包括深度神经网络、频谱、倒频谱、共振峰、基音和频率倒谱系数中的至少一种参数。12.根据权利要求9所述的装置，其特征在于，所述装置还包括: 第二采集模块，用于采集预设领域的特征数据，所述特征数据包括所述预设领域的特定术语、所述预设领域的文章、语义关联关系中的至少一种；第二生成模块，用于根据所述特征数据生成所述个性化语言特征参数。13.根据权利要求9所述的装置，其特征在于，所述预设通用语音模型包括通用声学模型和通用语言模型;所述第一生成模块包括: 第一结合子模块，用于结合所述个性化声学特征参数和所述通用声学模型，获得所述用户的个性化声学模型；第二结合子模块，用于结合所述个性化语言特征参数和所述通用语言模型，获得所述用户的个性化语言模型。14.根据权利要求12所述的装置，其特征在于，所述识别模块包括: 识别子模块，用于根据所述个性化声学模型，识别所述语音信息中的声音信息；匹配子模块，用于从所述个性化语言模型中匹配所述声音信息对应的文字；转化子模块，用于将所述声音信息转化为所述文字。15.根据权利要求14所述的装置，其特征在于，所述匹配子模块包括: 匹配单元，用于按照所述个性化语言模型中的优先级顺序，匹配所述声音信息对应的文字，其中，所述特征数据在所述个性化语言模型中的优先级最高。16.根据权利要求9所述的装置，其特征在于，所述装置还包括: 释放模块，用于当检测到所述用户对所述当前登录帐号的注销操作时，释放所述用户的个性化语音模型。
【专利摘要】本发明公开了一种语音识别方法及装置，用于实现在确保语音识别的准确率的同时，能够减轻服务器的负载压力。所述方法包括：接收当前登录的用户输入的语音信息；根据所述用户的当前登录帐号，获取与所述用户相对应的参数配置文件，所述参数配置文件包括个性化声学特征参数和个性化语言特征参数；根据所述参数配置文件和预设通用语音模型，生成所述用户的个性化语音模型；根据所述个性化语音模型，识别所述语音信息。该技术方案不仅提高语音识别的准确率，且使得服务器端无需存储每个用户的个性化语音模型，而只需存储每个用户的参数配置文件和一个通用语音模型即可，从而减轻了服务器的负载压力。
【IPC分类】G10L25/24, G10L15/02, G10L15/06, G10L25/30, G10L15/26, G10L15/07
【公开号】CN105489221
【申请号】CN201510876187
【发明人】欧光欣
【申请人】北京云知声信息技术有限公司
【公开日】2016年4月13日
【申请日】2015年12月2日

完整全部详细技术资料下载

当前第3页1 2 3