用于识别与语音命令相关联的位置以控制家用电器的方法和系统的制作方法

文档序号：9553318阅读：243来源：国知局

用于识别与语音命令相关联的位置以控制家用电器的方法和系统的制作方法
【技术领域】
[0001]本发明涉及一种用于在家庭环境中识别与语音命令相关联的位置以控制家用电器的方法和系统。更具体地，本发明涉及一种用于使用机器学习方法来识别用户在何处发出语音命令并且然后对与用户在同一房间中的家用电器执行语音命令的动作的方法和系统。
【背景技术】
[0002]如今通过移动电话上的语音命令进行的个人助理应用越来越受欢迎。这种类型的应用使用自然语言处理来回答问题、提出建议、以及通过将请求委托给目的地电视机或STB (机顶盒)来对诸如电视机之类的家用电器执行动作。
[0003]然而，在具有一个以上电视机的典型家庭环境中，如果应用仅识别出用户向移动电话说出“打开电视”，那么在没有与说出语音命令的地点相关的适当位置信息的情况下决定应当打开哪个电视机是很含糊的。因此，基于用户命令的背景来确定将要控制哪个电视机的附加方法是必要的。
[0004]在本申请中提出的解决方案解决了在家庭环境中存在多个电视机时当前技术的通过语音命令进行的个人助理应用无法正确地识别需要控制哪个电视机的难题。
[0005]通过提出利用所记录的“打开电视”语音命令提取特征并且通过用分类方法分析该特征来识别说出“打开电视”的语音命令的地点的方法，所提出的方法能够找到与语音命令相关联的位置并且然后打开同一房间中的电视。
[0006]家用电器包括多个电视机、空调设备、照明设备等。
[0007]作为相关技术，US20100332668A1公开了一种用于检测电子装置之间的接近度的方法和系统。

【发明内容】

[0008]根据本发明的一方面，提供了一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的方法，该方法包括以下步骤:接收由用户进行的语音命令；记录所接收的语音命令；采样所记录的语音命令，以及从所记录的语音命令中提取特征；通过将语音命令的提取的特征与特征参考进行比较来确定房间标签，其中房间标签与特征参考相关联；将房间标签指定给语音命令；以及根据所述语音命令来控制位于指定房间中的家用电器。
[0009]根据本发明的另一方面，提供了一种用于在家庭环境中用语音命令来控制位于指定房间中的家用电器的系统，该系统包括:接收器，用于接收由用户进行的语音命令；记录器，用于记录所接收的语音命令；以及控制器，其被配置为:采样所记录的语音命令，以及从所记录的语音命令中提取特征；通过将语音命令的提取的特征与特征参考进行比较来确定房间标签，其中房间标签与特征参考相关联；将房间标签指定给语音命令；以及根据语音命令来控制位于指定房间中的家用电器。
【附图说明】
[0010]根据结合附图的以下描述，本发明的这些和其它方面、特征和优点将变得显而易见，附图中:
[0011]图1示出了根据本发明的实施例的在家庭环境中的不同房间中存在一个以上电视机的示例性情况；
[0012]图2示出了说明根据本发明的实施例的分类方法的示例性流程图；以及
[0013]图3示出了说明根据本发明的实施例的系统的示例性框图。
【具体实施方式】
[0014]在以下描述中，将描述本发明的实施例的各个方面。为了解释的目的，阐述了具体配置和细节，以便提供彻底的理解。然而，对于本领域技术人员而言还将显而易见的是，可以在没有在此呈现的具体细节的情况下实现本发明。
[0015]图1示出了在家庭环境101中的不同房间103、105、107、109中存在一个以上电视机111、113、115、117的情况。在家庭环境101下，如果用户119向移动电话121仅指示“打开电视”，则移动电话上基于语音命令系统的个人助理应用不可能确定需要控制哪个电视机。
[0016]为了解决该问题，本发明在用户指示“打开电视”的语音命令时考虑周边声学(surrounding acoustic)，并且将语音命令与诸如语音特征和命令时间之类的其周边之间的现有相关性应用到语音命令理解中，以便用机器学习方法识别指示语音命令的地点并且然后打开同一房间中的电视。
[0017]在本发明中，个人助理应用包括语音分类系统，该语音分类系统结合了三个处理阶段:1.语音记录，2.特征提取和3.分类。已经使用了包括诸如过零率(zero-crossingrate)、信号带宽、频谱质心和信号能量之类的低级别参数的各种信号特征。从自动语音识别器继承的另一组所使用的特征是规定的梅尔倒频谱系数(MFCC:mel-frequencycepstral coefficients)。这意味着语音分类模块将结合具有节奏和音高内容的表示的标准特征。
[0018]1.语音记录
[0019]每次用户指示“打开电视”的语音命令时，个人助理应用记录该语音命令，并且然后向特征分析模块提供所记录的音频以便进一步处理。
[0020]2.特征分析
[0021]为了得到高精度的位置分类，根据本发明的系统以8KHz采样率来采样所记录的音频，并且然后例如按一秒钟窗将它划分成段。然后，在该系统的算法中将该一秒钟音频段看作基本分类单元，并且将该一秒钟音频段进一步分割成四十个25ms不重叠的帧。基于一秒钟音频段中的这四十个帧来提取每个特征。然后，系统选择能够识别由不同房间中的不同环境对所记录的音频所产生的效果的好特征。
[0022]将要提取和分析的若干基本特征包括:音频平均值，其衡量音频段矢量的平均值；音频传播，其衡量所记录的音频段频谱的传播；过零率比例，其对音频段波形的符号改变的次数进行计数；短时能量比例，其通过使用均方根的计算来描述音频段的短时能量。此外，提出为所记录的语音命令也选择两个更高级的特征:MFCC和混响效果系数。
[0023]MFCC(梅尔倒频谱系数)用极少的系数来表示频谱的形状。倒频谱被定义为频谱的对数的傅立叶变换。梅尔倒频谱是在梅尔频带上计算的频谱，而不是傅立叶频谱。可以根据以下步骤来计算MFCC:
[0024]1.对音频信号进行傅里叶变换；
[0025]2.将上面所获得的频谱的功率映射到梅尔刻度(scale)上；
[0026]3.在每个梅尔频率处求功率的对数；
[0027]4.对一列梅尔对数功率进行离散余弦变换；
[0028]5.将所得到的频谱的幅度作为MFCC。
[0029]同时，不同房间对所记录的语音命令产生不同的混响效果。取决于在具有不同大小和环境设置的不同房间中每个新音节有多远才被浸没(submerge)到混响噪声中，所记录的音频具有变化的听觉感知。提出根据以下步骤从音频记录中提取混响特征:
[0030]1.执行短时傅立叶变换以将音频信号变换成2D时频表示，在该2D时频表示中混响特征在时间维度上显现为频谱特征的模糊；
[0031]2.通过将表示2D时频性质的图像变换到可以执行有效边缘检测和表征的小波域来定量地估计混响的量；
[0032]3.以这种方式提取所得到的混响时间的定量估计与物理测量强相关，并且被看作混响效果系数。
[0033]此外，还可以考虑与所记录的语音命令相关联的其它非语音特征。当存在用户趋向于在不同日子的同一时间在特定房间中观看电视的模式时，所述其它非语音特征例如包括记录语音命令时的时间。
[0034]3.分类
[0035]得到在上述步骤中提取的特征之后，提出使用多类

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章志刚;张岩峰;许军;
技术所有人：汤姆逊许可公司;
我是此专利的发明人