语音处理方法及装置的制造方法

文档序号：10536406阅读：397来源：国知局

语音处理方法及装置的制造方法
【专利摘要】本发明是关于一种语音处理方法及装置，其中，方法包括：接收用户输入的语音信息；对所述语音信息进行声纹识别，并根据识别结果确定所述用户的年龄；判断所述用户的年龄所属的目标年龄范围；确定与所述目标年龄范围对应的目标语音处理模型；使用所述目标语音处理模型对所述语音信息进行处理。通过该技术方案，根据用户输入的语音信息确定用户的年龄，进而根据用户的年龄确定对应的目标语音处理模块，从而使用目标语音处理模型对语音信息进行处理，这样，针对不同的年龄段设置不同的语音处理模型，对每个年龄段的语音信息进行有针对性的处理，可以使得处理效果更好，提高语音处理的准确性，提升用户的使用体验。
【专利说明】
语音处理方法及装置
技术领域
[0001 ]本发明涉及语音处理技术领域，尤其涉及一种语音处理方法及装置。
【背景技术】
[0002]语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

【发明内容】

[0003]本发明实施例提供一种语音处理方法及装置，用以实现在保证语音处理的准确率的基础上，提高语义分析的成功率和准确率，从而提升用户的使用体验。
[0004]根据本发明实施例的第一方面，提供一种语音处理方法，包括:
[0005]接收用户输入的语音信息；
[0006]对所述语音信息进行声纹识别，并根据识别结果确定所述用户的年龄；
[0007]判断所述用户的年龄所属的目标年龄范围；
[0008]确定与所述目标年龄范围对应的目标语音处理模型；
[0009]使用所述目标语音处理模型对所述语音信息进行处理。
[0010]在该实施例中，根据用户输入的语音信息确定用户的年龄，进而根据用户的年龄确定对应的目标语音处理模块，从而使用目标语音处理模型对语音信息进行处理，这样，针对不同的年龄段设置不同的语音处理模型，对每个年龄段的语音信息进行有针对性的处理，可以使得处理效果更好，提高语音处理的准确性，提升用户的使用体验。
[0011 ]在一个实施例中，所述确定与所述目标年龄范围对应的目标语音处理模型，包括:
[0012]根据预设的年龄范围和预设的语音处理模型的对应关系，确定与所述目标年龄范围对应的目标语音处理模型。
[0013]在一个实施例中，所述年龄范围包括第一年龄范围、第二年龄范围和第三年龄范围，其中，第一年龄范围中的年龄大于第二年龄范围中的年龄，第二年龄范围中的年龄大于所述第三年龄范围中的年龄，所述第一年龄范围对应的语音处理模型为第一语音处理模型，所述第二年龄范围对应的语音处理模型为第二语音处理模型，所述第三年龄范围对应的语音处理模型为第三语音处理模型。
[0014]在一个实施例中，所述第一语音处理模型包括第一语音模型和第一语义模型，所述第二语音处理模型包括第二语音模型和第二语义模型，所述第三语音处理模型包括第三语音模型。
[0015]在一个实施例中，所述年龄范围和对应语音处理模型的匹配度成正相关。
[0016]在该实施例中，针对不同的年龄段的语音信息，可以使用不同的语音处理模型进行处理，其中，语音处理模块包括语音模型和语义模型，语音模型又可以包括声学模型和语言模型。具体地，年龄越大，采用的语音处理模块的匹配度可以越高，从而保证处理结果的准确性。
[0017]例如，成人的语音处理模块要求精确匹配度更高，则语音模型与语义模型可以均采用高匹配度的模型。
[0018]儿童的语音处理模块要求高度模糊匹配。例如，声学模型和语言模型采用较高匹配度的模型，语义模型采用中匹配度的模型。
[0019]婴儿可能只对应声学模型，只识别声音，不识别文字。婴儿不会说话，只能发声，所以可以只采用声学模型，不识别语言和语义。并且采用低匹配度的声学模型。
[0020]根据本发明实施例的第二方面，提供一种语音处理装置，包括:
[0021 ]接收模块，用于接收用户输入的语音信息；
[0022]第一确定模块，用于对所述语音信息进行声纹识别，并根据识别结果确定所述用户的年龄；
[0023]判断模块，用于判断所述用户的年龄所属的目标年龄范围；
[0024]第二确定模块，用于确定与所述目标年龄范围对应的目标语音处理模型；
[0025]处理模块，用于使用所述目标语音处理模型对所述语音信息进行处理。
[0026]在一个实施例中，所述第二确定模块用于:
[0027]根据预设的年龄范围和预设的语音处理模型的对应关系，确定与所述目标年龄范围对应的目标语音处理模型。
[0028]在一个实施例中，所述年龄范围包括第一年龄范围、第二年龄范围和第三年龄范围，其中，第一年龄范围中的年龄大于第二年龄范围中的年龄，第二年龄范围中的年龄大于所述第三年龄范围中的年龄，所述第一年龄范围对应的语音处理模型为第一语音处理模型，所述第二年龄范围对应的语音处理模型为第二语音处理模型，所述第三年龄范围对应的语音处理模型为第三语音处理模型。
[0029]在一个实施例中，所述第一语音处理模型包括第一语音模型和第一语义模型，所述第二语音处理模型包括第二语音模型和第二语义模型，所述第三语音处理模型包括第三语音模型。
[0030]在一个实施例中，所述年龄范围和对应语音处理模型的匹配度成正相关。
[0031]应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
[0032]本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0033]下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
【附图说明】
[0034]此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
[0035]图1是根据一示例性实施例示出的语音处理方法的流程图。
[0036]图2是根据一示例性实施例示出的语音处理方法中步骤S104的流程图。
[0037]图3是根据一示例性实施例示出的一种语音处理装置的框图。
【具体实施方式】
[0038]这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0039]图1是根据一示例性实施例示出的语音处理方法的流程图。该语音处理方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音处理功能的设备。如图3所示，该方法包括步骤SI O1-SI 05:
[0040]在步骤SlOl中，接收用户输入的语音信息；
[0041]在步骤S102中，对所述语音信息进行声纹识别，并根据识别结果确定所述用户的年龄；
[0042]所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官一舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，仍能区别不同的人的声音或判断是否是同一人的声音。
[0043]而通过对语音信息进行声纹识别，可以识别出用户的具体特征，例如用户的年龄、性别等。
[0044]在步骤S103中，判断所述用户的年龄所属的目标年龄范围；
[0045]在一个实施例中，所述年龄范围包括第一年龄范围、第二年龄范围和第三年龄范围，其中，第一年龄范围中的年龄大于第二年龄范围中的年龄，第二年龄范围中的年龄大于所述第三年龄范围中的年龄，所述第一年龄范围对应的语音处理模型为第一语音处理模型，所述第二年龄范围对应的语音处理模型为第二语音处理模型，所述第三年龄范围对应的语音处理模型为第三语音处理模型。
[0046]其中，第一年龄范围可以是11岁以上的成年段，第二年龄范围可以是3-10岁的儿童段，第三年龄范围可以是1-3岁的婴儿段。这样，针对不同的年龄段设置不同的语音处理模型，对每个年龄段的语音信息进行有针对性的处理，可以使得处理效果更好。
[0047]在步骤S104中，确定与所述目标年龄范围对应的目标语音处理模型；
[0048]在步骤S105中，使用所述目标语音处理模型对所述语音信息进行处理。
[0049]在该实施例中，根据用户输入的语音信息确定用户的年龄，进而根据用户的年龄确定对应的目标语音处理模块，从而使用目标语音处理模型对语音信息进行处理，这样，针对不同的年龄段设置不同的语音处理模型，对每个年龄段的语音信息进行有针对性的处理，可以使得处理效果更好，提高语音处理的准确性，提升用户的使用体验。
[0050]图2是根据一示例性实施例示出的语音处理方法中步骤S104的流程图。
[0051 ] 如图2所示，在一个实施例中，上述步骤S104包括步骤S201:
[0052]在步骤S201中，根据预设的年龄范围和预设的语音处理模型的对应关系，确定与所述目标年龄范围对应的目标语音处理模型。
[0053]在一个实施例中，所述第一语音处理模型包括第一语音模型和第一语义模型，所述第二语音处理模型包括第二语音模型和第二语义模型，所述第三语音处理模型包括第三语音模型。
[0054]在一个实施例中，所述年龄范围和对应语音处理模型的匹配度成正相关。
[0055]在该实施例中，针对不同的年龄段的语音信息，可以使用不同的语音处理模型进行处理，其中，语音处理模块包括语音模型和语义模型，语音模型又可以包括声学模型和语言模型。具体地，年龄越大，采用的语音处理模块的匹配度可以越高，从而保证处理结果的准确性。
[0056]例如，成人的语音处理模块要求精确匹配度更高，则语音模型与语义模型可以均采用高匹配度的模型。
[0057]儿童的语音处理模块要求高度模糊匹配。例如，声学模型和语言模型采用较高匹配度的模型，语义模型采用中匹配度的模型。
[0058]婴儿可能只对应声学模型，只识别声音，不识别文字。婴儿不会说话，只能发声，所以可以只采用声学模型，不识别语言和语义。并且采用低匹配度的声学模型。
[0059]下述为本发明装置实施例，可以用于执行本发明方法实施例。
[0060]图3是根据一示例性实施例示出的一种语音处理装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图3所示，该语音处理装置包括:
[0061 ]接收模块31，用于接收用户输入的语音信息；
[0062]第一确定模块32，用于对所述语音信息进行声纹识别，并根据识别结果确定所述用户的年龄；
[0063]判断模块33，用于判断所述用户的年龄所属的目标年龄范围；
[0064]第二确定模块34，用于确定与所述目标年龄范围对应的目标语音处理模型；
[0065]处理模块35，用于使用所述目标语音处理模型对所述语音信息进行处理。
[0066]在该实施例中，根据用户输入的语音信息确定用户的年龄，进而根据用户的年龄确定对应的目标语音处理模块，从而使用目标语音处理模型对语音信息进行处理，这样，针对不同的年龄段设置不同的语音处理模型，对每个年龄段的语音信息进行有针对性的处理，可以使得处理效果更好，提高语音处理的准确性，提升用户的使用体验。
[0067]在一个实施例中，所述第二确定模块用于:
[0068]根据预设的年龄范围和预设的语音处理模型的对应关系，确定与所述目标年龄范围对应的目标语音处理模型。
[0069]在一个实施例中，所述年龄范围包括第一年龄范围、第二年龄范围和第三年龄范围，其中，第一年龄范围中的年龄大于第二年龄范围中的年龄，第二年龄范围中的年龄大于所述第三年龄范围中的年龄，所述第一年龄范围对应的语音处理模型为第一语音处理模型，所述第二年龄范围对应的语音处理模型为第二语音处理模型，所述第三年龄范围对应的语音处理模型为第三语音处理模型。
[0070]其中，第一年龄范围可以是11岁以上的成年段，第二年龄范围可以是3-10岁的儿童段，第三年龄范围可以是1-3岁的婴儿段。这样，针对不同的年龄段设置不同的语音处理模型，对每个年龄段的语音信息进行有针对性的处理，可以使得处理效果更好。
[0071]在一个实施例中，所述第一语音处理模型包括第一语音模型和第一语义模型，所述第二语音处理模型包括第二语音模型和第二语义模型，所述第三语音处理模型包括第三语音模型。
[0072]在一个实施例中，所述年龄范围和对应语音处理模型的匹配度成正相关。
[0073]在该实施例中，针对不同的年龄段的语音信息，可以使用不同的语音处理模型进行处理，其中，语音处理模块包括语音模型和语义模型，语音模型又可以包括声学模型和语言模型。具体地，年龄越大，采用的语音处理模块的匹配度可以越高，从而保证处理结果的准确性。
[0074]例如，成人的语音处理模块要求精确匹配度更高，则语音模型与语义模型可以均采用高匹配度的模型。
[0075]儿童的语音处理模块要求高度模糊匹配。例如，声学模型和语言模型采用较高匹配度的模型，语义模型采用中匹配度的模型。
[0076]婴儿可能只对应声学模型，只识别声音，不识别文字。婴儿不会说话，只能发声，所以可以只采用声学模型，不识别语言和语义。并且采用低匹配度的声学模型。
[0077]本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0078]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0079]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0080]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0081]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种语音处理方法，其特征在于，包括: 接收用户输入的语音信息；对所述语音信息进行声纹识别，并根据识别结果确定所述用户的年龄；判断所述用户的年龄所属的目标年龄范围；确定与所述目标年龄范围对应的目标语音处理模型；使用所述目标语音处理模型对所述语音信息进行处理。2.根据权利要求1所述的方法，其特征在于，所述确定与所述目标年龄范围对应的目标语音处理模型，包括: 根据预设的年龄范围和预设的语音处理模型的对应关系，确定与所述目标年龄范围对应的目标语音处理模型。3.根据权利要求1所述的方法，其特征在于，所述年龄范围包括第一年龄范围、第二年龄范围和第三年龄范围，其中，第一年龄范围中的年龄大于第二年龄范围中的年龄，第二年龄范围中的年龄大于所述第三年龄范围中的年龄，所述第一年龄范围对应的语音处理模型为第一语音处理模型，所述第二年龄范围对应的语音处理模型为第二语音处理模型，所述第三年龄范围对应的语音处理模型为第三语音处理模型。4.根据权利要求3所述的方法，其特征在于，所述第一语音处理模型包括第一语音模型和第一语义模型，所述第二语音处理模型包括第二语音模型和第二语义模型，所述第三语音处理模型包括第三语音模型。5.根据权利要求2至4中任一项所述的方法，其特征在于，所述年龄范围和对应语音处理模型的匹配度成正相关。6.一种语音处理装置，其特征在于，包括: 接收模块，用于接收用户输入的语音信息；第一确定模块，用于对所述语音信息进行声纹识别，并根据识别结果确定所述用户的年龄；判断模块，用于判断所述用户的年龄所属的目标年龄范围；第二确定模块，用于确定与所述目标年龄范围对应的目标语音处理模型；处理模块，用于使用所述目标语音处理模型对所述语音信息进行处理。7.根据权利要求6所述的装置，其特征在于，所述第二确定模块用于: 根据预设的年龄范围和预设的语音处理模型的对应关系，确定与所述目标年龄范围对应的目标语音处理模型。8.根据权利要求6所述的装置，其特征在于，所述年龄范围包括第一年龄范围、第二年龄范围和第三年龄范围，其中，第一年龄范围中的年龄大于第二年龄范围中的年龄，第二年龄范围中的年龄大于所述第三年龄范围中的年龄，所述第一年龄范围对应的语音处理模型为第一语音处理模型，所述第二年龄范围对应的语音处理模型为第二语音处理模型，所述第三年龄范围对应的语音处理模型为第三语音处理模型。9.根据权利要求8所述的装置，其特征在于，所述第一语音处理模型包括第一语音模型和第一语义模型，所述第二语音处理模型包括第二语音模型和第二语义模型，所述第三语音处理模型包括第三语音模型。10.根据权利要求7至9中任一项所述的装置，其特征在于，所述年龄范围和对应语音处理模型的匹配度成正相关。
【文档编号】G10L25/51GK105895105SQ201610394300
【公开日】2016年8月24日
【申请日】2016年6月6日
【发明人】黄宇
【申请人】北京云知声信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄宇;
技术所有人：北京云知声信息技术有限公司;
我是此专利的发明人

上一篇：一种全景声编码方法
上一篇：说话人自适应识别方法及系统的制作方法