用于训练声音识别模型数据库的方法和装置的制造方法

文档序号：9816455阅读：710来源：国知局

用于训练声音识别模型数据库的方法和装置的制造方法
【技术领域】
[0001]本公开涉及语音识别，并且更具体地说，涉及用于训练声音识别数据库的方法和设备。
【背景技术】
[0002]虽然语音识别已经存在了几十年，但是语音识别软件和硬件的质量最近才达到足以吸引大量消费者的足够高的水平。近年来语音识别已经变得非常流行的一个领域是智能电话和平板计算机行业。使用启用语音识别的设备，消费者可以仅使用声音命令来执行如拨打电话、写邮件、以及使用GPS导航这样的任务。
[0003]然而，这种设备中的语音识别远远不够完善。语音识别引擎典型地依赖于能够识别声音发声的音素或命令数据库。然而，用户可能需要“训练”音素或命令数据库以识别出他或她的语音特征一一口音、经常发错音的词和音节、音调特征、节奏等等。然而，即使在训练之后，音素或命令数据库可能也不是在所有音频环境中都是准确的。例如，背景噪声的存在可降低语音识别准确性。
【附图说明】
[0004]虽然所附权利要求阐述了具有特殊性的本技术的特征，但是结合附图从后面的【具体实施方式】可以更好地理解这些技术，其中:
[0005]图1示出了对着在附图中被描绘为移动设备的电子设备说话的用户。
[0006]图2示出了图1的电子设备的示例组件。
[0007]图3示出了可以在其上实现各个实施例的架构。
[0008]图4-6示出了可以根据本公开的实施执行的步骤。
【具体实施方式】
[0009]本公开阐述了用于训练基于噪声的声音识别模型数据库的方法和装置。如这里所使用的术语“基于噪声的声音识别模型数据库”(简称为“VR模型数据库”)是指用作基于噪声的音素数据库、用作命令数据库、或者用作这两者的数据库。
[0010]本公开的各个实施例包括训练VR模型数据库的手动和自动方法。本公开的手动实施例包括直接训练方法，在该直接训练方法中电子设备(还被称为“设备”)指导用户以执行操作，响应于此，设备更新VR模型数据库。该设备可以在设备的初始设置期间或者在用户启动该过程的任何时间执行手动训练方法。例如，当用户处于新类型的噪声环境中时，用户可以启动手动方法以针对这种类型的噪声训练VR模型数据库，并且该设备可以将新噪声存储在噪声数据库中。
[0011]自动实施例包括由设备启动的方法而无需用户的知识。诸如当设备感测到新类型的噪声或者响应用户的动作时，该设备可以根据环境特性来启动自动方法。能够启动自动训练方法的用户动作示例包括用户经由按下按钮、手势触发、或者声音触发来启动语音识别会话。在这些情况下，设备将使用用户的语音以及它所检测到的其他噪声来进一步训练VR模型数据库。设备还可以使用用户的语音以及所检测到的噪声以用于语音识别处理本身。在这种情况下，如果设备积极地对语音识别结果做出反应(即与取消动作相反，执行语音识别处理所发起的动作)，那么该设备将使用来自语音识别事件的用户发声以及该事件的结果作为训练目标来启动自动训练处理。
[0012]根据各个实施例，除了现场发声和现场噪声之外，该设备还使用先前记录的噪声以及先前记录的发声(分别从噪声数据库和发声数据库检索出)来训练VR模型数据库。与现场噪声和发声一样，可以在不同噪声环境中以及在设备的不同使用情况期间获得先前记录的发声。可以将先前记录的发声和噪声分别存储在噪声数据库和发声数据库中并且可以从噪声数据库和发声数据库检索出。另外，该设备可将现场发声和现场噪声分别存储在噪声数据库和发声数据库中以供将来使用。
[0013]根据实施例，设备可按照下述各种方式来训练VR模型数据库，所述各种方式中的任何一个根据环境可以用于手动和自动训练方法这两者。例如，三种方法涉及如何捕获合成语音和噪声信号以便训练VR模型数据库。这些方法中的第一个基于设备所捕获的语音与自然噪声的合成信号。第二个基于捕获现场语音与设备的声学输出换能器所产生的噪声的合成信号。第三个基于设备通过对语音与它现场捕获的或者它从存储器检索出的噪声进行混合所产生的合成信号。最后的实施例可使用在安静环境中所捕获的与先前存储的噪声文件相混合的语音、或者与先前存储的语音发声相混合的已捕获的噪声。
[0014]在一个实施例中，电子设备对单个声音输入与一系列噪声样本中的每一个进行数字地组合。每个噪声样本是从不同音频环境(例如街道噪声、杂音、车内噪声)得到的。声音输入/噪声样本组合用于对VR模型数据库进行训练，而无需用户必须在不同环境中的每一个中重复声音输入。在一个变型中，电子设备将用户的声音输入传送到维护并训练VR模型数据库的服务器。
[0015]根据实施例，该方法是通过记录发声、对所记录的发声与先前记录的噪声样本进行数字地组合，并且基于该数字组合来训练基于噪声的VR模型数据库来执行的。使用相同的单个发声，可以对噪声样本集合中的每个先前记录的噪声样本(例如噪声数据库的噪声样本)重复这些步骤，并且可以因此在记录不同发声之前重复。将来，该处理可被重复以便不断地改进语音识别。
[0016]可替选地，电子设备可使用预定噪声重放(叮当声、汽车、杂音)产生仿真噪声环境，或者使用设备上的扬声器产生无反馈(静音)。用户在重放期间以及没有重放的情况下讲话。这允许设备识别出在安静Vs.嘈杂音频环境中用户的语音特性的变化。可基于该信息来训练VR模型数据库。
[0017]—个实施例涉及经由电子设备的麦克风接收发声，并且在接收了发声的同时，通过电子设备的扬声器来再现先前记录的噪声样本。麦克风拾取发声以及先前已记录的噪声这两者。
[0018]又一个实施例涉及在语音至文本命令(“STT”)模式期间记录发声，并且确定所记录的发声是否是STT命令。这种确定可以是基于词识别置信度值是否超过阈值来进行的。
[0019]如果所记录的发声被识别为STT命令，则电子设备执行基于STT命令的功能。如果电子设备执行正确功能(即与该命令相关联的功能)，则该设备对基于噪声的VR模型数据库进行训练以使发声与命令相关联。
[0020]还可以在从与不同噪声环境相结合的相同的人所记录的相同语音短语在STT命令模式期间重复执行该方法。噪声环境的示例包括家、汽车、街道、办公室、以及餐厅。
[0021]当本公开涉及用于彼此“提供”信息(数据)的模块和其它元件时，应理解的是存在可以执行这种动作的多种可能的方式，包括沿传导路径(例如电线)传送的电信号以及对象间方法调用。
[0022]这里所描述的实施例在一直在音频(always-onaud1)(AOA)的环境中可用。当使用AOA时，电子设备在接收到来自用户的触发命令时，能够从睡眠模式唤醒。AOA将附加需求置于设备上(尤其是移动设备)。当电子设备能够准确且快速地识别出用户的声音命令时，AOA是最有效的。
[0023]参考图1，用户104提供启用语音识别的电子设备(“设备”)102通过麦克风(或其它声音接收器)108所接收到的声音输入(或有声信息或语音)106。在该示例中为移动设备的设备102包括触摸屏显示器110，该触摸屏显示器110能够显示视觉图像并且接收或者感测如通过用户的手指或者诸如指示笔这样的其它触摸输入设备所提供的触摸型输入。在图1所示的实施例中，虽然存在有触摸屏显示器110，但是设备102还具有用作设备的输入设备的多个离散按键或按钮112。然而，在其它实施例中不是必须存在这样的按键或按钮(或者任何特定数目的这种按键或按钮)，并且触摸屏显示器110可用作主要的或唯一的用户输入设备。
[0024]虽然图1特别地示出了设备102包括触摸屏显示器110和按键或按钮112，但是这些特征仅旨在是设备102上的组件/特征的示例，并且在其它实施例中设备102不必包括这些特征中的一个或多个和/或除了这些特征之外或者代替这些特征还可包括其它特征。
[0025]设备102旨在表示包括例如蜂窝电话、个人数字助理(PDA)、智能电话、或者其它手持或便携式电子设备的各种设备。在替选实施例中，设备还可以是耳机(例如蓝牙耳机)、MP3播放器、电池供电的设备、手表设备(例如腕表)或其它可穿戴设备、无线电、导航设备、膝上型或笔记本计算机、上网本、寻呼机、PMP(个人媒体播放器)、DVR(数字视频记录器)、游戏设备、照相机、电子阅读器、电子书、平板计算机设备、具有视频功能屏幕的导航设备、多媒体对接站、或者其它设备。
[0026]本公开的实施例旨在适用于下述各种电子设备中的任一种，所述各种电子设备能够或被配置成接收声音输入或者指示或表示有声信息的其它声音输入。
[0027]图2示出了根据本公开的实施例的图1的设备102的内部组件。如图2所示，设备102包括一个或多个无线收发器202、计算处理器204(例如，微处理器、微计算机、专用集成电路、数字信号处理器等等)、存储器206、一个或多个输出设备208、以及一个或多个输入设备210。设备102可进一步包括组件接口

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：约翰·R·梅洛尼;约耳·A·克拉克;约瑟夫·C·德怀尔;阿德里安·舒斯特;斯内海特哈·辛加拉朱;罗伯特·A·茹雷克;
技术所有人：谷歌技术控股有限责任公司;
我是此专利的发明人