微软语音识别配置文件的自动切换方法及其系统的制作方法

文档序号：6546698阅读：258来源：国知局

微软语音识别配置文件的自动切换方法及其系统的制作方法
【专利摘要】微软语音识别配置文件的自动切换方法，创建使用同一台电脑进行语音识别的所有用户的身份信息和配置文件对应表；用户对着麦克风发声，电脑就可以对说话人的声音音色进行身份识别，并输出该用户的身份信息；从对应表文件，根据该用户的身份信息查询到对应的配置文件；自动切换到该用户的配置文件。本发明还提供一种微软语音识别配置文件的自动切换系统。
【专利说明】微软语音识别配置文件的自动切换方法及其系统
【技术领域】
[0001]本发明涉及计算机语音识别配置文件的自动切换，具体而言，涉及一种微软语音识别配置文件的自动切换方法及其系统。
【背景技术】
[0002]目前，业内主流的语音识别引擎有微软、科大讯飞和谷歌等，其中微软的识别引擎是基于windows平台的本地安装的训练数据库进行工作，这就决定了它的学习样本集不像科大讯飞、谷歌的部署在云端的语音识别引擎的数据库那么庞大。一般来说，微软的引擎需要用户进行发声训练形成存放在本地的适用于该用户的配置文件。当设置了经用户本人训练的配置文件的默认支持后，微软的引擎语音识别精度可以达到令人满意的程度。
[0003]但是当有若干用户使用同一台电脑做语音识别时就需要在不同的配置文件之间进行切换，当前这样的切换必须完全依赖手动操作进行。由于配置文件切换的动作比较繁琐:例如在win8系统里，用户首先要鼠标右键点中扬声器图标_>选择录音设备_>在弹出的窗口里继续用鼠标右键选中麦克风图标_>选中“配置语音识别”菜单_>在弹出的控制面板里选中左上方的“高级语音选项”_>在弹出的语音属性窗口里勾选用户对应的配置文件_>按确定退出，一共7个步骤实现配置文件的切换。在win8系统里如果通过控制面板打开麦克风来设置配置文件的切换则需要10个步骤。这些操作对于一般的通过口述编写文档的办公人员等不熟悉windows系统的用户是一个沉重的负担，本发明提出了一种自动切换配置文件的一步操作方法。

【发明内容】

[0004]本发明要解决现有技术依赖手动操作的缺点，提供一种微软语音识别配置文件的自动切换方法及其系统。
[0005]一种配置文件的自动切换方法，其特征在于，包括:
[0006]步骤1、在系统初始化阶段创建使用同一台电脑进行语音识别的用户的身份信息和配置文件的对应表；
[0007]步骤2、在每一个人使用语音识别之前用户开启麦克风并对着麦克风发声，电脑对说话人的语音身份进行识别，并输出该用户的身份信息；
[0008]步骤3、然后系统从对应表文件，根据该用户的身份信息查询到该用户对应的配置文件名；
[0009]步骤4、系统根据上一步得到的配置文件名将默认配置文件切换到该用户的配置文件，然后开始进入语音识别的工作。
[0010]进一步，步骤2中电脑对说话人的身份识别，其具体方式是:开启麦克风根据输入音频的特征分析来进行。步骤3中有与语音识别配置文件列表一一对应的同名字符串表示的配置文件的说话人身份配置文件对应表。
[0011]一种微软语音识别配置文件的自动切换系统，包括麦克风录音模块、说话人识别模块、说话人身份配置文件对应表、微软语音识别引擎配置文件列表、微软SAPI库Helper函数和自动切换模块；
[0012]麦克风录音模块是开启麦克风采集用户环境的声学信号，向说话人识别模块输出；
[0013]说话人识别模块根据采集的声音信号分析说话人的声音音色，向自动切换模块输出的说话人的身份信息；
[0014]自动切换模块用于自动修改默认配置文件为该用户的配置，不需要经过繁琐的手动操作；
[0015]说话人身份配置文件对应表用于给自动切换模块提供查询，以便自动切换模块获得该说话人所对应的配置文件名；
[0016]微软语音识别引擎的微配置文件列表是微软语音识别引擎部署在本地的各个用户的语音训练特征数据的文件名，该列表在切换模块设置默认配置文件时遍历所用；
[0017]微软SAPI库Helper函数为切换模块提供了关于修改默认配置文件的接口 API。
[0018]本发明的优点是 :可以在微软语音识别引擎的基础上实现自动切换不同的配置文件，无需手动操作。
【专利附图】

【附图说明】
[0019]图1是本发明实施例配置文件自动切换方法的实现逻辑示意图，图中语音识别配置文件列表中加粗的配置文件k表示是当前用户的默认配置文件。
[0020]图2是本发明实施例的系统功能运行逻辑次序图。
[0021]图3是本发明实施例的系统组件图，图中的----?表示的是“依赖于”。
【具体实施方式】
[0022]参照附图:
[0023]一种配置文件的自动切换方法，其特征在于，包括:
[0024]步骤1、在系统初始化阶段创建使用同一台电脑进行语音识别的用户的身份信息和配置文件的对应表；
[0025]步骤2、在每一个人使用语音识别之前用户开启麦克风并对着麦克风发声，电脑对说话人的语音身份进行识别，并输出该用户的身份信息；
[0026]步骤3、然后系统从对应表文件，根据该用户的身份信息查询到该用户对应的配置文件名；
[0027]步骤4、系统根据上一步得到的配置文件名将默认配置文件切换到该用户的配置文件，然后开始进入语音识别的工作。
[0028]步骤2中电脑对说话人的身份识别，其具体方式是:开启麦克风根据输入音频的特征分析来进行。步骤3中有与语音识别配置文件列表一一对应的同名字符串表示的配置文件的说话人身份配置文件对应表。
[0029]下面请参考图1，该图是配置文件自动切换方法的实现逻辑示意图，具体描述如下:
[0030]创建使用同一台电脑的所有用户的身份信息和配置文件的对应表文件；当麦克风有语音输入时，电脑对说话人的语音身份进行识别，并输出该说话人的身份信息；再从对应表文件，即说话人的身份信息查询到其对应的配置文件，并自动切换配置文件。
[0031]图中语音识别配置文件列表里的多个元素表示目前在语音识别系统中已经训练了多个配置文件，且默认的配置文件只有一个；当自动切换指向语音识别配置文件列表时，则表示查看默认配置文件是否就是当前的用户配置，若不是则自动修改默认配置文件为当前用户的配置，图中就是将用户k的配置文件设为默认配置文件。
[0032]下面请参考图2，该图是系统功能运行逻辑次序图，具体的流程如下:
[0033]创建使用同一台电脑进行语音识别的所有用户的身份信息和配置文件对应表文件。
[0034]I)用户对着麦克风发声；
[0035]2)对说话人的发声音色进行识别，并输出该说话人的身份信息；
[0036]3)根据识别后输出的说话人身份信息去匹配该说话人的配置文件名；
[0037]4)匹配配置文件名后自动切换配置文件；
[0038]5)用户继续对着麦克风说话；
[0039]6)持续进行语音识别。
[0040]相应地，本发明一种微软语音识别配置文件的自动切换系统，包括麦克风录音模块、说话人识别模块、说话人身份配置文件对应表、微软语音识别引擎配置文件列表、微软SAPI库Helper函数和自动切换模块；
[0041]麦克风录音模块是开启麦克风采集用户环境的声学信号，向说话人识别模块输出；
[0042]说话人识别模块根据采集的声音信号分析说话人的声音音色，向自动切换模块输出说话人的身份信息；
[0043]自动切换模块用于自动修改默认配置文件为该用户的配置，不需要经过繁琐的手动操作；
[0044]说话人身份配置文件对应表用于给自动切换模块提供查询，以便自动切换模块获得该说话人所对应的配置文件名；
[0045]微软语音识别引擎的配置文件列表是微软语音识别引擎部署在本地的各个用户的语音训练特征数据的文件名，该列表用于切换模块设置默认配置文件时遍历所用；
[0046]微软SAPI库Helper函数为切换模块提供了关于修改默认配置文件的接口 API。
[0047]说话人识别模块是根据语音基频、共振峰等频谱特征建立人员音色特征库，实现说话人识别，并准确查找说话人的配置文件。
[0048]说话人身份识别(Speaker Recognition)的性能精度误差虽然影响说话人身份的识别输出的准确性，但由此导致的设置错误的配置文件不会造成语音识别精度的降低，这是因为说话人识别出现错误，意味着这两人的音色特征比较相似，于是他们的配置文件也比较近似，从而导致他们可以互用对方的配置文件而不会造成语音识别精度的降低。
[0049]自动切换模块是用于自动修改默认配置文件为当前用户的配置，不需要经过繁琐的手动操作。
[0050]自动切换的实现逻辑是根据说话人识别模块输出的“用户”信息，从对应表文件查询到“用户”对应的“配置文件”名，使用微软提供的SAPI库的Helper部分的接口函数实现默认配置文件的更改，从而实现不同配置文件之间的切换。其中设置默认配置文件的SAPI接口的调用方式为
[0051]//枚举配置文件列表里的所有配置文件
[0052]
for(int i=0; i<count;i++)
{
cpObjectToken.Release (); //获取第i个配置文件的文件名 cpEnum->Item(i, &cp0bjectToken);
hr 二 cpObjectToken->GetStringValue(NULL, &pwszRecoProfileName);
//如果和说话人识别输出的说话人对应的配置文件inprof同名 if(!wcscmp(pwszRecoProfileName, inprof))

{
//进行默认配置文件的设置 hr =SpSetDefaultTokenForCategoryId(SPCAT REC0PR0FILES, cpObjectToken );

}
}
[0053]下面请参考图3,该图是系统组件图,具体内容包括:
[0054]系统要实现自动切换配置文件需要依赖于用户、配置文件名对应表，微软SAPI库Helper接口函数和第三方说话人识别引擎。
[0055]用户、配置文件名对应表是根据用户身份信息来查找相对应的配置文件的；
[0056]微软SAPI库Helper接口函数是用来实现默认配置文件的更改的；
[0057]第三方说话人识别引擎依赖于麦克风录音，这是因为第三方说话人识别引擎是用语音音色识别说话人身份的，需要有麦克风录音的输入才能进行身份识别。
【权利要求】
1.微软语音识别配置文件的自动切换方法，其特征在于，包括: 步骤1、在系统初始化阶段创建使用同一台电脑进行语音识别的用户的身份信息和配置文件的对应表；步骤2、在每一个人使用语音识别之前用户开启麦克风并对着麦克风发声，电脑对说话人的语音身份进行识别，并输出该用户的身份信息；步骤3、然后系统从对应表文件，根据该用户的身份信息查询到该用户对应的配置文件名；步骤4、系统根据上一步得到的配置文件名将默认配置文件切换到该用户的配置文件，然后开始进入语音识别的工作。
2.根据权利要求1所述的方法，其特征在于:步骤2中电脑对说话人的身份识别，其具体方式是:开启麦克风根据输入音频的特征分析来进行。
3.根据权利要求1所述的方法，其特征在于:步骤3中有与语音识别配置文件列表一一对应的同名字符串表示的配置文件的说话人身份配置文件对应表。
4.一种使用权利要求1所述的方法的系统，其特征在于:包括麦克风录音模块、说话人识别模块、说话人身份配置文件对应表、微软语音识别引擎配置文件列表、微软SAPI库Helper函数和自动切换模块；麦克风录音模块是开启麦克风采集用户环境的声学信号，向说话人识别模块输出；说话人识别模块根据采集的声音信号分析说话人的声音音色，向自动切换模块输出的说话人的身份信息；自动切换模块用于自动修改默认配置文件为该用户的配置，不需要经过繁琐的手动操作；说话人身份配置文件对应表用于给自动切换模块提供查询，以便自动切换模块获得该说话人所对应的配置文件名；微软语音识别引擎的配置文件列表是微软语音识别引擎部署在本地的各个用户的语音训练特征数据的文件名，该列表用于切换模块设置默认配置文件时遍历所用；微软SAPI库Helper函数为切换模块提供了关于修改默认配置文件的接口 API。
【文档编号】G06F17/30GK104021146SQ201410207282
【公开日】2014年9月3日申请日期:2014年5月15日优先权日:2014年5月15日
【发明者】陆成刚, 俞珊珊申请人:浙江工业大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陆成刚;俞珊珊
技术所有人：浙江工业大学
我是此专利的发明人

上一篇：PostgreSQL高并发流式大数据多维度准实时统计的方法
上一篇：基于电负荷与气温的数学模型的购电方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。