语音识别装置和语音识别方法_2

文档序号:9766608阅读:来源:国知局
成第一说话者的个人声学模型252。将所生成的个人声学模型252存储在第二存储器250中。此外,学习器240可以通过学习累积在第一存储器230中的多个说话者的语音数据来生成用于各个说话者的个人声学模型。
[0043]第二存储器250预先存储通用声学模型254。可以通过学习消音室中的各个说话者的语音数据来预先生成通用声学模型254。此外,学习器240可以通过学习累积在第一存储器230中的多个说话者的语音数据来更新通用声学模型254。第二存储器250可以进一步存储被用于执行语音识别的上下文信息和语言模型。
[0044]如果从第一说话者接收到语音识别请求,那么特征向量提取器260从第一说话者的语音数据提取特征向量。将所提取的特征向量发送至语音识别器270。特征向量提取器260 可以通过使用 Mel 频率倒谱参数(MelFrequency Cepstral Coefficient) (MFCC)提取法、线性预测编码(LPC)提取法、高频域强调提取法(high frequency domain emphasisextract1n method)或窗口函数提取法来提取特征向量。由于提取特征向量的方法对于本领域普通技术人员是显而易见的,所以将省略对其的详细说明。
[0045]语音识别器270基于从特征向量提取器260接收的特征向量执行语音识别。语音识别器270可以基于第一说话者的语音数据的累积量来选择通用声学模型254和第一说话者的个人声学模型252中的任一个。具体地,语音识别器270可以将第一说话者的语音数据的累积量与预定阈值进行比较。预定阈值可被设定为是由本领域普通技术人员所确定的值,该值用于确定第一存储器230中是否累积了足够的第一说话者的语音数据。
[0046]如果第一说话者的语音数据的累积量大于或等于预定阈值,那么语音识别器270选择第一说话者的个人声学模型252。语音识别器270通过使用特征向量和第一说话者的个人声学模型252来识别语音命令。相反,如果第一说话者的语音数据的累积量小于预定阈值,那么语音识别器270选择通用声学模型254。语音识别器270通过使用特征向量和通用声学模型254来识别语音命令。
[0047]识别结果处理器280从语音识别器270接收语音识别结果(即,语音命令)。识别结果处理器280可以基于语音识别结果控制基于语音的装置100。例如,识别结果处理器280可以执行与所识别的语音命令相对应的功能(例如,呼叫功能或路线指导功能)。
[0048]图3是根据本公开的实施方式的语音识别方法的流程图。
[0049]在步骤Sll中,收集器210从基于语音的装置100收集第一说话者的语音数据。预处理器220可以检测并且去除第一说话者的语音数据的噪声。此外,收集器210可以收集包括第一说话者的多个说话者的语音数据。
[0050]在步骤S12中,将中第一说话者的语音数据累积在第一存储器230。可以在第一存储器230中累积多个说话者的各个说话者的语音数据。
[0051]在步骤S13中,学习器240通过学习累积在第一存储器230中的第一说话者的语音数据来生成第一说话者的个人声学模型252。此外,学习器240可以通过学习多个说话者的语音数据来生成用于各个说话者的个人声学模型。此外,学习器240可以通过学习多个说话者的语音数据来更新通用声学模型254。
[0052]如果从第一说话者接收到语音识别请求,那么在步骤S14中,特征向量提取器260从第一说话者的语音数据提取特征向量。
[0053]在步骤S15中,语音识别器270可以将第一说话者的语音数据的累积量与预定阈值进行比较。
[0054]如果在步骤S15中第一说话者的语音数据的累积量大于或等于预定阈值,那么在步骤S16中,语音识别器270通过使用第一说话者的个人声学模型252和特征向量来识别语音命令。
[0055]如果在步骤S15中第一说话者的语音数据的累积量小于预定阈值,那么在步骤S17中,语音识别器270通过使用通用声学模型254和特征向量来识别语音命令。此后,识别结果处理器280可以执行与语音命令相对应的功能。
[0056]如上所述,根据本公开的实施方式,可以基于说话者的语音数据的累积量来选择个人声学模型和通用声学模型中的一个并且可以通过使用所选择的声学模型来执行语音识别。此外,可以基于所累积的语音数据生成说话者的定制声学模型,从而改善语音识别性會K。
[0057]虽然结合目前被视为实践的实施方式描述了本公开内容,但是应理解的是,本公开内容不限于所公开的实施方式,相反,本公开内容旨在覆盖被包含在所附权利要求的实质和范围内的各种修改和等同配置。
【主权项】
1.一种语音识别装置,包括: 收集器,从基于语音的装置收集第一说话者的语音数据; 第一存储器,累积所述第一说话者的语音数据; 学习器,学习累积在所述第一存储器中的所述第一说话者的语音数据并且所述学习器基于所学习的语音数据生成所述第一说话者的个人声学模型; 第二存储器,存储通用声学模型和所述第一说话者的个人声学模型; 特征向量提取器,当从所述第一说话者接收到语音识别请求时,所述特征向量提取器从所述第一说话者的语音数据提取特征向量;以及 语音识别器,基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个并且所述语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。2.根据权利要求1所述的语音识别装置,进一步包括检测并且去除所述第一说话者的语音数据中的噪声的预处理器。3.根据权利要求1所述的语音识别装置,其中,当所述第一说话者的语音数据的累积量大于或等于预定阈值时,所述语音识别器选择所述第一说话者的个人声学模型;并且当所述第一说话者的语音数据的累积量小于所述预定阈值时,所述语音识别器选择所述通用声学模型。4.根据权利要求1所述的语音识别装置,其中, 所述收集器收集包括所述第一说话者的多个说话者的语音数据;并且 所述第一存储器累积所述多个说话者的各个说话者的语音数据。5.根据权利要求4所述的语音识别装置,其中,所述学习器学习所述多个说话者的语音数据并且所述学习器基于所学习的所述多个说话者的语音数据生成用于各个说话者个人声学模型。6.根据权利要求4所述的语音识别装置,其中,所述学习器学习所述多个说话者的语音数据并且基于所学习的所述多个说话者的语音数据来更新所述通用声学模型。7.根据权利要求1所述的语音识别装置,进一步包括执行与所识别的语音命令相对应的功能的识别结果处理器。8.一种语音识别方法,包括: 从基于语音的装置收集第一说话者的语音数据; 将所述第一说话者的语音数据累积在第一存储器中; 学习所累积的所述第一说话者的语音数据; 基于所学习的语音数据生成所述第一说话者的个人声学模型; 将通用声学模型和所述第一说话者的个人声学模型存储在第二存储器中; 当从所述第一说话者接收到语音识别请求时,从所述第一说话者的语音数据提取特征向量; 基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个;以及 使用所提取的特征向量和所选择的声学模型识别语音命令。9.根据权利要求8所述的语音识别方法,进一步包括检测并且去除所述第一说话者的语音数据中的噪声。10.根据权利要求8所述的语音识别方法,进一步包括: 将所述第一说话者的语音数据的累积量与预定阈值进行比较; 当所述第一说话者的语音数据的累积量大于或等于所述预定阈值时,选择所述第一说话者的个人声学模型;并且 当所述第一说话者的语音数据的累积量小于所述预定阈值时,选择所述通用声学模型。11.根据权利要求8所述的语音识别方法,进一步包括: 收集包括所述第一说话者的多个说话者的语音数据;并且 在所述第一存储器中累积所述多个说话者的各个说话者的语音数据。12.根据权利要求11所述的语音识别方法,进一步包括: 学习所述多个说话者的语音数据;并且 基于所学习的所述多个说话者的语音数据生成用于各个说话者的个人声学模型。13.根据权利要求11所述的语音识别方法,进一步包括: 学习所述多个说话者的语音数据;并且 基于所学习的所述多个说话者的语音数据更新所述通用声学模型。14.根据权利要求8所述的语音识别方法,进一步包括执行与所识别的语音命令相对应的功能。15.一种非易失性计算机可读介质,包含用于执行语音识别方法的程序指令,所述计算机可读介质包括: 从基于语音的装置收集第一说话者的语音数据的程序指令; 将所述第一说话者的语音数据累积在第一存储器中的程序指令; 学习所累积的所述第一说话者的语音数据的程序指令; 基于所学习的语音数据生成所述第一说话者的个人声学模型的程序指令; 将通用声学模型和所述第一说话者的个人声学模型存储在第二存储器中的程序指令; 如果当从所述第一说话者接收到语音识别请求时,从所述第一说话者的语音数据提取特征向量的程序指令; 基于所述第一说话者的语音数据的累积量来选择所述通用声学模型和所述第一说话者的个人声学模型中的任一个的程序指令;以及 使用所提取的特征向量和所选择的声学模型来识别语音命令的程序指令。
【专利摘要】本公开涉及语音识别装置和语音识别方法。一种语音识别装置,包括:收集器,从基于语音的装置收集第一说话者的语音数据;第一存储器,累积第一说话者的语音数据;学习器,学习累积在第一存储器中的第一说话者的语音数据并且基于所学习的知语音数据生成第一说话者的个人声学模型;第二存储器,存储通用声学模型和第一说话者的个人声学模型;特征向量提取器,当从第一说话者接收到语音识别请求时,该特征向量提取器从第一说话者的语音数据提取特征向量;以及语音识别器,基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个并且使用所提取的特征向量和所选择的声学模型来识别语音命令。
【IPC分类】G10L15/02, G10L15/22, G10L15/06
【公开号】CN105529026
【申请号】CN201510601128
【发明人】房圭燮, 李昌宪
【申请人】现代自动车株式会社
【公开日】2016年4月27日
【申请日】2015年9月18日
【公告号】DE102015213715A1, US20160111084
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1