消费类电子设备的音控方法和音控装置的制作方法

文档序号：2837432阅读：368来源：国知局

专利名称：消费类电子设备的音控方法和音控装置的制作方法
技术领域：
本发明涉及消费类电子设备的音控方法和音控装置。
为此，最初将用户说出的操作控制命令作为声音信号进行检测、转换为电信号然后进行数字化。之后，将数字化音频信号馈送到语音识别系统。在此，语音识别过程基于声音模型和语音模型。声音模型使用大量语音模式，语音模式利用指出与口语字在声音上最匹配的字的数学算法。而语音模型是基于一种分析方法，这种分析方法是根据在此上下文中的大量文件采样和通常特定字使用多么频繁建立的。
当前系统提供对着集成在遥控装置上的麦克风说操作控制命令。利用直接放在用户口的前方的遥控装置可以避免由背景噪声的干扰引起的识别速率降低。然而，与在传统遥控装置情况下相同，仍要求用户必须拿着遥控装置。对于语音输入，如果在消费类电子设备内设置一个或多个麦克风，可以提高使用的方便性，因此，用户可以在房间内要求的任何位置实现操作控制，而无需拿着遥控装置。在这种情况下，通过使用专用麦克风阵列和诸如“统计聚束”或“盲源分离”的方法可以消除背景干扰。然而，所控制的设备不能确定当前用户在进行哪个语音输入。因此，不能仅对这些操作命令进行响应而忽略其它人的发音。
改善用户使用方便性的进一步方式是将电视节目自动缓冲存储到集成在电视机或机顶盒内的硬盘上。在对收视习惯分析之后，在这种情况下，自动记录用户先前有规律选择的节目或节目类型。然后，如果用户随时接通其电视机，用户可以以某个概率度观看其喜欢的节目。然而，在有多个用户情况下，由于不能识别在哪个时间是哪个用户操作了电视机，所以会降低分析质量。
原则上，消费类电子设备的音控方法包括将用户语音输入转换为数字音频信号。从数字音频信号内提取第一特性，第一特性表示语音的独立声音特征并可以识别口音。此外，从数字音频信号内提取第二特性，第二特性表示各用户的语音特征并对不同用户的语音输入进行识别。在第一用户说过语音命令之后，通过检验表示特征语音特性的更多的语音输入，仅可以从此第一用户接收更多的语音命令，并且，如果根据这些特性可以将它们指定到同一个发音者，则只接收它们。
然后，就可以保证在给定周期内，只有多个同时用户中的一个用户可以操作音控方法所涉及的设备，这与多个用户中只有一个用户具有匹配的遥控装置的情况相同。
具体地说，其优势在于，从任何一个第一用户接收用于接通设备的语音命令，此后，只从被接受的第一用户输入语音命令。
最好仅从第一用户接收用于断开该设备的语音命令，断开此设备后，可以再从其他用户接收语音命令。
然而，对于特定应用，其优势在于，可以从任何用户接收断开该设备的语音命令。
同样，优势在于，在第一用户输入操作控制命令后，提供允许从第二用户接收语音命令的操作控制命令。这样在将遥控装置从第一用户传递到第二用户时，就可以将操作控制特权从第一用户传递到第二用户。
其显著优势在于，为了对收视习惯进行分析并根据此分析建立各种用户的用户描述，可以识别出现的各种用户。
以这种方式获得的用户描述最好用于电视节目的缓冲存储，以使不同用户的优选节目具有独立缓冲存储。
同样，用户描述可以用于对将收视的、适于各种用户收视习惯的节目提供建议。
首先，在第一方法步骤1，将声音信号转换为电信号以产生模拟音频信号，然后将音频信号转换为数字音频信号。
其次，在下一方法步骤2，第一特征从数字化的声信号获得，该第一特征尽可能地与语音中各别声音一样典型，并相对于发音中的干扰和变化较鲁棒。同样，在方法步骤3，从数字声信号中提取第二特性，第二特性表示各用户的语音特征并对各种用户的语音输入进行区别。在此典型实施例中，可以对语音识别装置和发音者识别装置单独产生此提取特性，也可以对语音识别装置和发音者识别装置共同产生此提取特性。
根据第一特性，在方法步骤4实际进行语音识别。在方法步骤5，为了对该时间说话的用户进行识别，利用第二特性进行发音者识别。然而，同样只可以存储第二特性以区别于其它用户，而无需对出现的各用户进行识别。
在方法步骤6，检查电视机是否早已接通。如果电视机已被接通，则执行方法步骤7和方法步骤8，否则就执行方法步骤9和方法步骤10。如果电视机还未被接通，则在方法步骤9对是否发出接通命令，例如“接通”或“接通电视机”进行检验。如果发出了接通命令，则在方法步骤10接通电视机并通知发出此命令的用户。如果不进行识别，而仅在不同用户之间存在区别，则相应地存储表示当前用户特征的第二特性。随后，与在方法步骤9未发出接通命令的情况相同的方式，返回方法步骤1。
如果已经接通电视机，则方法步骤6之后执行方法步骤7。在方法步骤7，对在方法步骤10是否事先已经通知用户进行了语音输入进行检验。如果已经通知用户，则在方法步骤8使用输入命令用于控制音控系统，例如，进行菜单控制或导航。然后，以与在方法步骤7建立用户之间差别的情况中的相同方式返回方法步骤1。
可以设想此示范实施例的各种变换。例如，可以从任何用户接收断开设备的语音输入。同样，提供操作控制命令，当其被第一用户输入时允许接受第二用户或更多用户的语音输入。
图2示意示出第二示范实施例顺序的流程图。在这种情况下，对音控电视机的各种用户进行识别，以便从这个识别建立这些用户的用户描述。
方法步骤1至5与

图1所示的典型实施例相同，尽管在方法步骤5，它基本上识别在这时说话的用户。另一方面，现在不需要方法步骤6、7和9。在方法步骤8执行与语音输入对应的操作控制命令。此外，在方法步骤11，将发出语音输入的被识别用户与关于当前时间和电视频道的明细或关于此时播出的节目明细存储在一起。尤其在垂直消隐期间的模拟电视信号情况下，要么在电视机中使用这些明细，要么将这些明细作为附加明细与电视信号一起发送。例如，要么利用内部时钟产生的时间，要么计算在电视文字广播中发送的时间信号。同样，要么根据此时选择的电视机节目地址，要么在电视图文广播内或VPS信号12内的相应明细直接确定电视频道。最后，从电视机中的EPG中或从相应发送的数据中取出此时广播的节目明细，即标题或类型，例如娱乐节目、体育节目等。
将利用语音识别确定的用户描述存储到硬盘上的TV节目缓冲存储区或存储到在电视机或机顶盒内设置的类似存储介质内。在这种情况下，通过识别各用户，可以显著提高对收视习惯进行分析的准确性。例如以小孩在电视机前花费的时间明显比父母在电视机前长的家庭为例，因此硬盘内不再仅存储儿童节目。相反，其它发音者识别过程允许分别对多个家庭成员建立收视习惯分析。然后，可以根据特定键在各用户之间对硬盘的有限缓冲存储空间进行划分，这样对各用户提供其预定的缓冲存储的电视节目的份额。
同样，利用语音识别确定的用户描述还可以用于记录无线电广播节目或发送的其它数据。
为了检测音频信号，可以设置一个麦克风或包括两个或多个麦克风的麦克风阵列。例如，可以将麦克风阵列集成到电视接收机内。麦克风将检测到的声信号转换为电信号，放大器对电信号进行放大，利用AD转换器将放大的信号转换为数字信号，然后馈送到信号处理装置。利用检测声信号的不同换算过程和处理过程，信号处理装置可以考虑用户所处的位置。此外，还可以根据扬声器发出的声信号对麦克风信号进行校正。然后，将以这种方式调节的信号馈送到语音识别装置和发音者识别装置，这样就可以对算法装置或硬件装置单独进行配置，或将算法装置和硬件装置共同进行配置。最后，将确定的命令和相同用户馈送到控制系统的系统管理员。
本发明可以广泛用于消费类电子设备的语音遥控，例如电视机、录像机、DVD播放机、卫星接收机、组合电视视频系统、声频设备或成套声频系统。
权利要求
1.一种消费类电子设备的音控方法，在该方法中，将用户的语音输入转换为数字音频信号，从数字音频信号内提取第一特征，第一特征表示语音的独立声音的特征并可以识别口音，从数字音频信号内提取表示各用户的语音特征并用于识别不同用户的语音输入的第二特性，其特征在于，在第一用户发出语音命令之后，通过检验特征语音特性的语音输入，仅从第一用户接受进一步的语音命令，并且如果可以根据这些特性将它们指定到相同的发音者，则仅接收它们。
2.根据权利要求1所述的方法，其特征在于，从任何第一用户接收接通设备的语音命令，此后，仅临时接收第一用户发出的语音命令。
3.根据权利要求2所述的方法，其特征在于，仅从第一用户接收断开设备的语音命令，断开此设备后，再从其他用户接收语音命令。
4.根据权利要求2所述的方法，其特征在于，从任意用户接收断开设备的语音命令。
5.根据权利要求1所述的方法，其特征在于，在第一用户输入操作控制命令后，提供允许从第二用户接收语音命令的操作控制命令。
6.根据权利要求1所述的方法，其特征在于，对存在的各种用户进行识别并对所识别用户的收视习惯进行分析，以便从这个分析建立各种用户的用户描述。
7.根据权利要求6所述的方法，其特征在于，将用户描述存储到电视节目缓冲存储区，以使不同用户具有优选节目的独立缓冲存储区。
8.根据权利要求6所述的方法，其特征在于，用户描述可以用于对识别的用户建议待收视的节目。
9.用于实现根据上述权利要求之一所述的方法的装置。
全文摘要
在消费类电子设备音控方法中,将用户的语音输入转换为数字音频信号。从此数字音频信号内提取表示语音的独立声音的特征的第一特性。此外,从此数字音频信号内提取表示各用户的语音特征并用于识别不同用户的语音输入的第二特性。这样就可以控制此设备以在当表示操作控制命令的前用户的语音输入与其它人发音之间进行识别,并且仅对当前用户的操作控制命令进行响应。不仅如此,通过在用户之间进行识别可以改善对不同用户收视习惯的分析质量。
文档编号G10L17/00GK1345029SQ0113128
公开日2002年4月17日申请日期2001年9月5日优先权日2000年9月19日
发明者恩斯特·F·施罗德, 汉斯－约阿希姆·普拉特申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：恩斯特.F.施罗德;汉斯-约阿希姆.普拉特
技术所有人：汤姆森许可贸易公司
我是此专利的发明人

上一篇：配套使用的图像、语音及数据时隙分插编码、解码监控装置的制作方法
上一篇：简孔气鸣管乐器的制作方法