语音识别装置和语音识别方法

文档序号:9766608阅读:399来源:国知局
语音识别装置和语音识别方法
【专利说明】语音识别装置和语音识别方法
[0001]相关申请的交叉引用
[0002]本申请要求于2014年10月17日向韩国知识产权局提交的韩国专利申请第10-2014-0141167号的优先权和权益,通过引用将其全部内容结合于本文中。
技术领域
[0003]本公开涉及语音识别装置和语音识别方法。
【背景技术】
[0004]根据传统的语音识别方法,使用已预先存储在语音识别装置中的声学模型来执行语音识别。声学模型被用于表示说话者的语音的属性。例如,音素、双音素、三音素、五音素、音节以及字被用作声学模型的基本单位。如果将音素用作声学模型的基本模型,由于声学模型的数量减少,所以诸如双音素、三音素或五音素的上下文相关的声学模型被广泛使用以便反映相邻音素之间的变化所引起的协同发音(coarticulat1n)现象。需要大量数据来学习上下文相关的声学模型。
[0005]通常,将在消声室被录音的或通过服务器收集的各个说话者的声音存储作为语音数据,并且通过学习语音数据来生成声学模型。然而,在这种方法中,因为实际上使用语音识别功能的说话者的音调常常不同于与所收集的语音数据相对应的音调,故难以收集大量的语音数据并且保证语音识别性能。因此,由于通常通过学习成年男性的语音数据来生成声学模型,故难以识别具有不同的声音音调的成年女性、年长者或孩子的语音命令。
[0006]在该背景部分中公开的上述信息仅用于增强对本公开内容的背景的理解,并且因此本公开内容可以包含在该国家中未构成为本领域普通技术人员所已知的相关技术的信息。

【发明内容】

[0007]所创作的本公开致力于提供具有基于说话者的语音数据生成个人声学模型(individual acoustic model)并且通过使用个人声学模型进行语音识别的优点的语音识别装置和语音识别方法。除了前述目的以外,本公开的实施方式可被用于实现未详细描述的其他目的。
[0008]根据本公开的实施方式的语音识别装置包括:收集器,从基于语音的装置收集第一说话者(first speaker)的语音数据;第一存储器,累积第一说话者的语音数据;学习器(learner),学习累积在第一存储器中的第一说话者的语音数据并且基于所学习的语音数据生成第一说话者的个人声学模型;第二存储器,存储通用声学模型(generic acousticmodel)和第一说话者的个人声学模型;特征向量提取器,当从第一说话者接收到语音识别请求时,该特征向量提取器从第一说话者的语音数据提取特征向量;以及语音识别器,该语音识别器基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个并且语音识别器使用所提取的特征向量和所选择的声学模型识别语音命令。
[0009]语音识别装置可以进一步包括检测并且去除第一说话者的语音数据中的噪声的预处理器。
[0010]当第一说话者的语音数据的累积量大于或等于预定阈值时,语音识别器可以选择第一说话者的个人声学模型;并且当第一说话者的语音数据的累积量小于预定阈值时,语音识别器可以选择通用声学模型。
[0011]收集器可以收集包括第一说话者的多个说话者的语音数据,并且第一存储器可以累积多个说话者的各个说话者的语音数据。
[0012]学习器可以学习多个说话者的语音数据并且基于所学习的多个说话者的语音数据生成用于各个说话者的个人声学模型。
[0013]学习器可以学习多个说话者的语音数据并且基于所学习的多个说话者的语音数据来更新通用声学模型。
[0014]语音识别装置可以进一步包括执行与所识别的语音命令相对应的功能的识别结果处理器。
[0015]此外,根据本公开的实施方式,语音识别方法包括:从基于语音的装置收集第一说话者的语音数据;将第一说话者的语音数据累积在第一存储器中;学习所累积的第一说话者的语音数据;基于所学习的语音数据生成第一说话者的个人声学模型;将第一说话者的个人声学模型和通用声学模型存储在第二存储器中;当从第一说话者接收语音识别请求时,从第一说话者的语音数据提取特征向量;基于第一说话者的语音数据的累积量来选择第一说话者的个人声学模型和通用声学模型中的任一个;以及使用所提取的特征向量和所选择的声学模型识别语音命令。
[0016]语音识别方法可以进一步包括检测并且去除第一说话者的语音数据中的噪声。
[0017]语音识别方法可以进一步包括将第一说话者的语音数据的累积量与预定阈值进行比较;当第一说话者的语音数据的累积量大于或等于预定阈值时选择第一说话者的个人声学模型;并且当第一说话者的语音数据的累积量小于预定阈值时选择通用声学模型。
[0018]语音识别方法可以进一步包括收集包括第一说话者的多个说话者的语音数据,并且在第一存储器中累积多个说话者的各个说话者的语音数据。
[0019]语音识别方法可以进一步包括学习多个说话者的语音数据;并且基于所学习的多个说话者的语音数据生成用于各个说话者的个人声学模型。
[0020]语音识别方法可以进一步包括学习多个说话者的语音数据;并且基于所学习的多个说话者的语音数据来更新通用声学模型。
[0021]语音识别方法可以进一步包括执行与所识别的语音命令相对应的功能。
[0022]此外,根据本公开的实施方式,一种非易失性计算机可读介质,包含用于执行语音识别方法的程序指令,该计算机可读介质包括:从基于语音的装置收集第一说话者的语音数据的程序指令;将第一说话者的语音数据累积在第一存储器中的程序指令;学习所累积的第一说话者的语音数据的程序指令;基于所学习的语音数据生成第一说话者的个人声学模型的程序指令;将第一说话者的个人声学模型和通用声学模型存储在第二存储器中的程序指令;如果当从第一说话者接收语音识别请求时,从第一说话者的语音数据提取特征向量的程序指令;基于第一说话者的语音数据的累积量来选择通用声学模型和第一说话者的个人声学模型中的任一个的程序指令;以及使用所提取的特征向量和所选择的声学模型识别语音命令的程序指令。
[0023]因此,可以使用说话者的个人声学模型执行语音识别,从而改善语音识别性能。此夕卜,可以减少生成个人声学模型所需的语音数据的收集时间和收集成本。
【附图说明】
[0024]图1是根据本公开的实施方式的语音识别装置的框图。
[0025]图2是根据本公开的实施方式的语音识别器和第二存储器的框图。
[0026]图3是根据本公开的实施方式的语音识别方法的流程图。
[0027]〈符号说明〉
[0028]110:车载信息娱乐装置120:电话
[0029]210:收集器220:预处理器
[0030]230:第一存储器240:学习器
[0031]250:第二存储器260:特征向量提取器
[0032]270:语音识别器280:识别结果处理器
【具体实施方式】
[0033]在下文中,将参照附图详细地描述本公开。本领域的技术人员应理解的是,在不背离本公开的精神或范围的前提下,可以以各种不同的方式对所描述的实施方式进行修改。此外,贯穿本说明书,相同的参考标号指代相同的元件。
[0034]贯穿本说明书,除非另有明确说明,否则词语“包括(comprise) ”以及诸如“包含(comprises) ”或者“含有(comprising) ”的变形应被理解为意指包括所陈述的元件,但并不排除任何其他元件。此外,在说明书中所描述的术语“单元”、..者(_er)..器(-or) ”或者“模块(module) ”意指用于处理至少一个功能和操作的器件并且可通过硬件组件或者软件组件及它们的组合来实现。
[0035]贯穿说明书,“说话者(speaker) ”意指诸如车载信息娱乐装置或电话的基于语音的装置的用户,并且“语音数据(speech data)”意指用户的声音。此外,应理解的是,在本文中所使用的术语“车辆(vehicle) ”或“车辆的(vehicular) ”或其他类似术语包括广义上的机动车辆,诸如载客车辆,包括运动型多用途车辆(SUV)、公共汽车、卡车、各种商用车、包括各种小船和船只的船舶、飞机等等;并且包括混合动力车辆、电动车辆、插电式混合动力车辆、氢动力车辆以及其他可替代的燃料车辆(例如,燃料来源于除石油以外的能源)。如本文中所提及的,混合车辆是具有两个或更多个动力源的车辆,例如,汽油动力和电动力车辆这两者。
[0036]此外,应理解的是,可以由至少一个处理器执行一个或多个下面的方法或者该方法的方面。术语“处理器”可以指与存储器结合操作的硬件装置。该存储器被配置为存储程序指令,并且处理器被具体编程为执行用于执行下面进一步描述的一个或多个处理的程序指令。此外,应理解的是,如本领域普通技术人员应理解的,可由包括结合一个或多个其他组件的处理器的设备来执行下面的方法。
[0037]图1是根据本公开的实施方式的语音识别装置的框图;以及图2是根据本公开的实施方式的语音识别器和第二存储器的框图。
[0038]如在图1中所示,语音识别装置200可以通过有线或无线方式连接到基于语音的装置100。基于语音的装置110可以包括诸如音频视频导航(AVN)装置的车载信息娱乐装置110和电话120。语音识别装置200可以包括收集器210、预处理器220、第一存储器230、学习器240、第二存储器250、特征向量提取器260、语音识别器270以及识别结果处理器280。
[0039]收集器210可以从基于语音的装置100收集第一说话者(例如,车辆的驾驶员)的语音数据。例如,如果说明基于语音的装置100属于第一说话者,那么收集器210可以从基于语音的装置100收集语音数据作为第一说话者的语音数据。此外,收集器210可以收集包括第一说话者的多个说话者的语音数据。
[0040]预处理器220可以检测并且去除通过收集器210所收集的第一说话者的语音数据中的噪声。
[0041]在第一存储器230中累积去除了噪声的第一说话者的语音数据。此外,第一存储器230可以累积多个说话者的各个说话者的语音数据。
[0042]学习器240可以学习累积在第一存储器230中的第一说话者的语音数据,以生
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1