声音识别装置及其方法

文档序号：2820257阅读：199来源：国知局

专利名称：声音识别装置及其方法
技术领域：
本发明是关于声音识别，尤其是关于为了控制如AV(audio-visual)仪器等装置识别使用者命令的声音识别装置及其方法。
背景技术：
为了控制电视、音响等家电一般利用遥控器或按相应的家电控制键，利用遥控器时，需要遥控器一直在使用者近处，存在直接动手操作的麻烦。而且，丢失遥控器时使用者必须直接操作家电，尤其是残疾人或高龄者连使用遥控器也是非常困难。为了解决这种问题家电采用了声音识别技术。
声音识别利用人类最自然的意识传达手段声音，向机器或电脑传达人类的意识，使其按此意识进行动作的技术。现在，虽然这种声音识别在许多领域给人类提供很多方便，但利用声音识别控制AV仪器还比较困难。因为使用AV仪器时不仅存在环境噪音还有AV仪器输出的声音，AV仪器和使用者之间的距离不是很近，声音识别的准确性不高。因此，为了按照使用者的声音准确控制AV仪器还存在需要克服的问题。

发明内容
本发明是为了解决上述传统技术的问题提案的，其目的是为了提供在存在回音及杂音的环境也可以准确识别使用者声音的声音识别装置及其方法。
为了解决上述技术课题的本发明声音识别装置包括接受AV系统的回音、使用者声音、杂音的等声音，根据使用者声音的相关情报，从上述接受的声音消除回音的回音消除部、从上述接受声音检出使用者声音(voice)，根据检出使用者声音，生成上述使用者声音相关情报的声音检出部、为了识别上述检出的使用者声音，将上述检出的使用者声音与至少一个模型中包含的声音模式进行比较的声音识别部。
上述回音消除部包括为了按频带分离上述AV系统输出音的第1滤波器、为了按频带分离上述接受音的第2滤波器、利用第1滤波器输出的信号，从按频带分离的声音中分别消除回音的适应滤波器、统合上述适应滤波器输出信号的第3滤波器。
上述回音消除部根据上述生成的使用者声音相关情报，至少消除上述回音消除部包含的滤波器的拦截频率、通过频率、回音消除率之中的一项。上述使用者声音相关情报包含上述使用者声音的始点节拍和终点节拍，此外还至少包含使用者声音的频带、振幅、波形中的一项。
在上述检出的使用者声音与第1模型包含的声音模式一致时，上述声音识别部计算第1确率和上述检出的使用者声音与第2模型包含的声音模式一致的第2确率。在此，上述第1模型包含相应的声音模式，上述第2模型积累(accumulate)相应非既定单词的声音模式。
上述声音识别部分别计算第1模型包含的声音模式与上述检出的使用者声音一致的确率，将上述计算的确率中最大确率判断为第1确率，计算第2模型包含的声音模式与上述检出的使用者声音一致的确率，将上述计算的确率中最大确率判断为第2确率。
上述声音识别部根据上述第1确率和第2确率的比率判断是否识别使用者声音。上述声音识别部比较第1确率和第2确率的比率和基准值，根据比较结果识别使用者声音。
本发明的声音识别方法包括(a)接受包含AV系统回音、使用者声音、杂音等声音的阶段；(b)从上述接受的声音中检出使用者声音，根据上述检出的使用者声音生成使用者声音相关情报的阶段；(c)将上述接受的声音通过根据上述使用者声音相关情报控制的多个滤波器消除回音的阶段；(d)将上述检出的使用者声音与至少一个模型包含的声音模式进行比较的阶段。
在上述消除回音的阶段，上述使用者声音的始点节拍和终点节拍期间(term)，固定上述滤波器的参数。在此，上述滤波器参数至少包含上述滤波器的拦截频带、通过频带、回音消除率中的一项。另外，在上述消除回音的阶段，根据使用者声音相关情报，至少控制上述滤波器的拦截频带、通过频带、回音消除率中的一项。
将上述检出的使用者声音与至少一个模型包含的声音模式比较的阶段包括计算上述检出的使用者声音与第1模型包含的声音模式一致的第1确率和上述检出的使用者声音与第2模型包含的声音模式一致的第2确率的阶段、计算上述第1确率与上述第2确率的比率的阶段、将第1确率和第2确率的比率与基准值比较的阶段、根据比较结果识别使用者声音的阶段。
本发明的其他类型声音识别装置包括从接受声音检出使用者声音(voice)声音检出部、计算上述检出的使用者声音第1模型包含的声音模式一致的第1确率和上述检出的使用者声音第2模型包含的声音模式一致的第2确率，根据上述第1确率与上述第2确率的比率，识别上述检出的使用者声音的声音识别部。
本发明的其他类型声音识别方法a)从接受的声音中检出使用者声音(voice)阶段；(b)计算上述检出的使用者声音第1模型包含的声音模式一致的第1确率和上述检出的使用者声音第2模型包含的声音模式一致的第2确率的阶段；(c)根据上述第1确率与上述第2确率的比率，识别上述检出的使用者声音的阶段。
上述计算第1确率和第2确率的阶段包括计算第1模型包含的声音模式与上述检出的使用者声音一致的确率的阶段，将上述计算的确率中最大确率判断为第1确率的阶段。
上述计算第1确率和第2确率的阶段还包括计算第2模型包含的声音模式与上述检出的使用者声音一致的确率的阶段，将上述计算的确率中最大确率判断为第2确率的阶段。
上述根据上述第1确率和第2确率的比率识别检出的使用者声音的阶段包括比较第1确率和第2确率的比率和第1、2基准值的阶段，根据比较结果判断是否识别使用者声音的阶段。例如，上述第1确率和上述第2确率的比率比第1基准值大或相同时识别使用者声音，上述第1确率和上述第2确率的比率比第1基准值小比第2基准值大或相同时，在画面显示与上述检出的使用者声音相应的单词。如果上述第1确率和上述第2确率的比率比第2基准值小，就不识别上述检出的使用者声音。
本发明具有如下有益效果1.如上所述，因为本发明根据核心语的确率和非核心语的确率之比识别使用者声音，即使在存在回音和杂音的环境下也可以正确识别使用者声音履行相应命令；2.本发明不仅可适用于AV仪器，还可适用于自动翻译装置、各种电器、携带电话、玩具等各种领域。

图1是显示包括本发明声音识别装置的AC仪器的图面；图2是显示本发明声音识别装置构成的框图；图3是显示图2的回音消除部的详细图；图4是显示本发明声音识别方法的序图；图5是显示检出的使用者声音波形的示例图。
其中21为回音消除部；22为声音检出部；23为声音识别部；24为存储器；211为第1滤波器；212为第2滤波器；213为第3滤波器；215为适应滤波器。
具体实施例方式
下面，参照附图详细说明按照本发明的实施例。
图1显示了包括本发明声音识别装置的AC仪器的例子，图2显示上述声音识别装置的构成。如图1所示，上述声音识别装置20与回音及杂音一起接受使用者声音。上述所谓回音时由墙壁或物体反射的TV10音响。为了更好的识别使用者的声音，上述声音识别装置20最好位于TV10的前面。
如图2所示，TV10或声音识别装置20麦克风接收TV回音、杂音等各种各样的声音和使用者的声音，再将其变换为频率信号。回音消除部21通过TV10的麦克风接收上述频率信号，从上述频率信号只输出使用者声音信号(vocal signal)。音量小的杂音容易从使用者声音中分离，但音量大的TV回音不容易分离，因此，如图3所示，本发明的回音消除部21为了有效地分离/消除TV包含了回音IIR滤波器组(infinite-impulse response filterbanks)211，212，213。上述第1滤波器组211为了从广播信号中按频带(服役带)分离音频信号(audio signals)，具有M个频道滤波器H0，H1，H2...HM-1，上述第2滤波器组212为了按频带分离麦克风接收的信号，具有M个频道滤波器H0，H1，H2......HM-1。上述滤波器H0，H1，H2...HM-1分别通过频带相互不同的信号。适应滤波器部215的各个适应滤波器W0，W1，W2...WM-1分别接受上述第1，2滤波器组211，212分离的信号。
上述适应滤波器W0，W1，W2...WM-1从第1、2滤波器组211、212分别接受符合相应频带的信号。例如，上述适应滤波器中的W0接收第1滤波器组211的频道滤波器中的H0和第2滤波器组212的频道滤波器中的H0输出的信号。上述适应滤波器W0，W1，W2...WM-1为了检出TV回音比较上述第1滤波器组211和上述第2滤波器组212的输出信号，寻找频率、振幅等相同或类似的信号。上述第2滤波器组212的输出信号中相同或类似的信号被看作回音，上述适应滤波器W0，W1，W2...WM-1从上述第2滤波器组212接收的信号中消除上述回音信号。最终，上述适应滤波器部215输出不包含回音的各频带的信号。上述第3滤波器组213从上述适应滤波器部215各频带消除回音信号的信号，并统合上述各频带的信号。上述统合信号包含通过麦克风接收的使用者声音，偶尔也可能包含杂音。因此，本发明可以包括为了消除噪音及残余回音的杂音消除器。上述杂音消除器根据设定的阈值过滤上述第3滤波器组213输出的信号。
声音(voice)检出部22接收上述回音消除部21输出的信号，从上述接受信号检出使用用者声音(voice)输出声音相关情报。例如，为了检出声音区间上述声音检出部22判断上述声音的始点和终点，检出上述声音的频带、振幅、波形等声音特点。上述声音检出部22向上述回音消除部21声音识别部23提供上述声音相关情报。
存储器24将相应声音的模式的统计情报以确率模型状态存储。如果检出使用者声音，上述声音识别部23将上述检出的使用者声音与上述存储器24存储的确率模型进行比较，计算模型是检出声音的确率(类似度)。并且，根据上述计算的确率判断上述使用者的声音是否是命令词，以及判断上述使用者的声音是什么命令。控制部11按照相应上述使用者声音的命令控制TV10。
关于本发明的声音识别方法的详细说明如下。图4是显示本发明声音识别方法的流程图。如果使用者在视听TV10的途中说命令语(例如″音量-降″)，上述命令语″音量-降″通过麦克风向上述回音消除部21提供。此时，回音及杂音与使用者声音一同被输入到上述回音消除部21。
输入到上述回音消除部21的使用者声音、回音、杂音按频带被分离，上述被分离的回音被上述适应滤波器W0，W1，W2...WM-1消除，上述杂音被上述杂音消除器消除(S30)，上述回音消除部21以利用滤波器组211，212，213的服役带适应滤波方式消除回音。
上述声音检出部22从上述回音消除部21接收上述消除回音及杂音的信号，如图5所示，为了检出上述使用者声音，从上述接收的信号检出各频带的上述声音波形(S31)，并且上述声音检出部22检出上述声音的始点和终点，判断它们的节拍，检出上述声音的频带、振幅等。上述声音检出部22为了检出上述声音的始点和终点将上述声音的能量与既定阈值进行比较。例如，输入到上述声音检出部22的信号能量大于第1阈值就判断为声音的始点，输入到上述声音检出部22的信号能量在一定时间内小于第2阈值就判断为声音的终点。如果检出上述声音的始点，上述回音消除部的适应滤波器215停止适应，如果检出上述声音的终点，上述回音消除部的适应滤器215重新开始适应。在此，所谓适应是指随时推测TV10输出音响的回音经路，根据回音经路(例如，视听者移动引起的)变化更换滤波参数，例如上述适应滤波器W0，W1，W2...WM-1的拦截频率及通过频率、回音消除率等。
但是，上述回音消除部21同时接收使用者声音和回音时无法知道正确的滤波参数，固定上述适应滤波器部215的滤波参数，上述回音消除部21只接受回音时，根据回音经路改变适应滤波器部215的滤波参数。
上述声音识别部23计算上述检出的使用者声音是核心语(即定单词)的确率和非核心语(非即定单词)的确率(S32)。为了求核心语的确率，上述声音识别部23将上述检出的使用者声音与第1模型包含的既定声音模式(例如，“频道更换”，“音量-升”，“音量-降”，“外部输入”)进行比较，计算各个声音模式是上述检出声音的确率(i.c.类似度)。在此，上述第1模型是利用每个单词相应的声音训练的隐形马尔科夫模型(hidden markovmodelHMM)。上述声音识别部23将计算的最大确率判断为核心词的确率。并且，为了求非核心词的确率上述声音识别部23利用第2模型。在此，上述第2模型是积累非既定声音模式而形成的补白模式(filler model)。上述声音识别部23计算上述第2模型的声音模式是上述检出声音的确率(类似度)。并且，上述声音识别部23将计算的最大确率判断为核心词的确率。
上述声音识别部23计算上述计算的核心语的确率和非核心语的确率之比，并将上述核心语的确率和非核心语的确率之比与第1基准值及第2基准值比较(S33，S35)，上述第1基准值是误动作(声音识别的误认)确率等于0.5％时的上述核心语的确率和非核心语的确率之比，上述第2基准值是误动作(声音识别的误认)确率等于5％时的上述核心语的确率和非核心语的确率之比，上述第1，2基准值通过试验获得。
上述核心语的确率和非核心语的确率之比比上述第1基准值大或相同时，上述声音识别部23识别上述检出的使用者声音。例如，上述声音识别部23确认上述第1模型的声音模式中确率(类似度)最大的声音模式，向控制部11传达相应上述确认声音模式的命令。上述控制部11则按照接收的命令控制上述TV10(S34)。
上述核心语的确率和非核心语的确率之比比上述第1基准值小比上述第2基准值大或相同时，上述声音识别部23不直接识别上述检出的使用者声音，而是在画面显示相当于上述使用者声音的单词。例如，上述声音识别部23确认上述第1模型的声音模式中确率(类似度)最大的声音模式，向控制部11要求在画面显示上述确认的声音模式(S36)。上述控制部11则在画面显示上述确认的声音模式，例如，在画面显示“音量-降”，等待使用者的批准(confirmation)。如果接收“yes”“OK”“select”等使用者的批准(S37)，上述控制部11降低上述TV10的音量(S38)。如果接收“No”“cancel”等使用者的命令，上述控制部11消除在画面显示的上述声音模式“音量-降”。
上述核心语的确率和非核心语的确率之比比上述第2基准值小时，上述声音识别部23不寻找与上述检出的使用者声音一致的声音模式，也不向上述控制部11提供任何信号(S39)。因此，上述控制部11上述检出的使用者声音不做反应。
通过如上说明的内容，如果是同业者就会知道，即使不脱离本发明的技术思想的范围也可以进行多种变更及修改。因此，本发明的技术范围不是限定于实施例记载的内容，而应该取决于专利申请范围。
权利要求
1.一种声音识别装置，其特征在于接受AV系统的回音、使用者声音、杂音的声音，根据使用者声音的相关情报，从上述接受的声音消除回音的回音消除部、从上述接受声音检出使用者声音(voice)，根据检出使用者声音，生成上述使用者声音相关情报的声音检出部、为了识别上述检出的使用者声音，将上述检出的使用者声音与至少一个模型中包含的声音模式进行比较的声音识别部。
2.按权利要求1所述的声音识别装置，其特征在于上述回音消除部包括为了按频带分离上述AV系统输出音的第1滤波器、为了按频带分离上述接受音的第2滤波器、利用第1滤波器输出的信号，从按频带分离的声音中分别消除回音的适应滤波器、统合上述适应滤波器输出信号的第3滤波器。
3.按权利要求1所述的声音识别装置，其特征在于另外包括为了从上述消除回音的声音中消除噪音及残余回音的杂音消除器。
4.按权利要求1所述的声音识别装置，其特征在于上述回音消除部根据上述生成的使用者声音相关情报，至少消除上述回音消除部包含的滤波器的拦截频率、通过频率、回音消除率之中的一项。
5.按权利要求1所述的声音识别装置，其特征在于上述使用者声音相关情报包含上述使用者声音的始点节拍和终点节拍。
6.按权利要求5所述的声音识别装置，其特征在于上述使用者声音相关情报还至少包含使用者声音的频带、振幅、波形中的一项。
7.按权利要求1所述的声音识别装置，其特征在于上述声音识别部计算上述检出的使用者声音与第1模型包含的声音模式一致的第1确率和上述检出的使用者声音与第2模型包含的声音模式一致的第2确率。
8.按权利要求7所述的声音识别装置，其特征在于上述声音识别部根据上述第1确率和第2确率的比率判断是否识别使用者声音。
9.按权利要求7所述的声音识别装置，其特征在于上述第1模型包含相应既定单词的声音模式。
10.按权利要求7所述的声音识别装置，其特征在于上述第2模型积累(accumulate)相应非既定单词的声音模式。
11.按权利要求7所述的声音识别装置，其特征在于上述声音识别部，比较上述第1确率和上述第2确率的比率和基准值，根据比较结果识别上述检出的使用者声音。
12.按权利要求7所述的声音识别装置，其特征在于上述声音识别部计算第1模型包含的声音模式与上述检出的使用者声音一致的确率，将上述计算的确率中最大确率判断为第1确率。
13.按权利要求7所述的声音识别装置，其特征在于上述声音识别部计算第2模型包含的声音模式与上述检出的使用者声音一致的确率，将上述计算的确率中最大确率判断为第2确率。
14.一种声音识别方法，其特征在于包括以下阶段(a)接受包含AV系统回音、使用者声音、杂音等声音的阶段；(b)从上述接受的声音中检出使用者声音，根据上述检出的使用者声音生成使用者声音相关情报的阶段；(c)将上述接受的声音通过根据上述使用者声音相关情报控制的多个滤波器消除回音的阶段；(d)将上述检出的使用者声音与至少一个模型包含的声音模式进行比较的阶段。
15.按权利要求14所述的声音识别装置，其特征在于在上述消除回音的阶段，上述使用者声音的始点节拍和终点节拍期间(term)，固定上述滤波器的参数。
16.按权利要求15所述的声音识别装置，其特征在于上述滤波器参数至少包含上述滤波器的拦截频带、通过频带、回音消除率中的一项。
17.按权利要求14所述的声音识别装置，其特征在于另外包括为了从上述消除回音的声音中消除噪音及残余回音的阶段。
18.按权利要求14所述的声音识别装置，其特征在于在上述消除回音的阶段，根据使用者声音相关情报，至少控制上述滤波器的拦截频带、通过频带、回音消除率中的一项。
19.按权利要求14所述的声音识别装置，其特征在于将上述检出的使用者声音与至少一个模型包含的声音模式比较的阶段包括计算上述检出的使用者声音与第1模型包含的声音模式一致的第1确率和上述检出的使用者声音与第2模型包含的声音模式一致的第2确率的阶段。
20.按权利要求14所述的声音识别装置，其特征在于另外包括计算上述第1确率与上述第2确率的比率的阶段、将第1确率和第2确率的比率与基准值比较的阶段、根据比较结果识别使用者声音的阶段。
21.按权利要求19所述的声音识别装置，其特征在于上述第1模型包含相应既定单词的声音模式。
22.按权利要求19所述的声音识别装置，其特征在于上述第2模型积累(accumulate)相应非既定单词的声音模式。
23.一种声音识别装置，其特征在于包括从接受声音检出使用者声音(voice)声音检出部、计算上述检出的使用者声音第1模型包含的声音模式一致的第1确率和上述检出的使用者声音第2模型包含的声音模式一致的第2确率，根据上述第1确率与上述第2确率的比率，识别上述检出的使用者声音的声音识别部。
24.按权利要求23所述的声音识别装置，其特征在于上述第1模型包含相应既定单词的声音模式。
25.按权利要求23所述的声音识别装置，其特征在于上述第2模型积累(accumulate)相应非既定单词的声音模式。
26.按权利要求23所述的声音识别装置，其特征在于上述声音识别部比较上述第1确率和上述第2确率的比率和基准值，根据比较结果识别上述检出的使用者声音。
27.一种声音识别方法，其特征在于包括如下阶段(a)从接受的声音中检出使用者声音(voice)阶段；(b)计算上述检出的使用者声音第1模型包含的声音模式一致的第1确率和上述检出的使用者声音第2模型包含的声音模式一致的第2确率的阶段；(c)根据上述第1确率与上述第2确率的比率，识别上述检出的使用者声音的阶段。
28.按权利要求27所述的声音识别装置，其特征在于上述第1模型包含相应既定单词的声音模式。
29.按权利要求27所述的声音识别装置，其特征在于上述第2模型积累(accumulate)相应非既定单词的声音模式。
30.按权利要求27所述的声音识别装置，其特征在于上述计算第1确率和第2确率的阶段包括计算第1模型包含的声音模式与上述检出的使用者声音一致的确率的阶段，将上述计算的确率中最大确率判断为第1确率的阶段。
31.按权利要求27所述的声音识别装置，其特征在于上述计算第1确率和第2确率的阶段还包括计算第2模型包含的声音模式与上述检出的使用者声音一致的确率的阶段，将上述计算的确率中最大确率判断为第2确率的阶段。
32.按权利要求27所述的声音识别装置，其特征在于根据上述第1确率和第2确率的比率识别检出的使用者声音的阶段包括比较第1确率和第2确率的比率和第1、2基准值的阶段和根据比较结果判断是否识别使用者声音的阶段。
33.按权利要求32所述的声音识别装置，其特征在于上述第1确率和上述第2确率的比率比第1基准值大或相同时识别使用者声音。
34.按权利要求32所述的声音识别装置，其特征在于上述第1确率和上述第2确率的比率比第1基准值小比第2基准值大或相同时，在画面显示与上述检出的使用者声音相应的单词。
35.按权利要求32所述的声音识别装置，其特征在于如果上述第1确率和上述第2确率的比率比第2基准值小，就不识别上述检出的使用者声音。
全文摘要
本发明公开了一种声音识别装置及其方法，是为了正确识别使用者声音，它包括接受AV系统的回音、使用者声音、杂音的等声音，根据使用者声音的相关情报，从上述接受的声音消除回音的回音消除部、从上述接受声音检出使用者声音，根据检出使用者声音，生成上述使用者声音相关情报的声音检出部、为了识别上述检出的使用者声音，将上述检出的使用者声音与至少一个模型中包含的声音模式进行比较的声音识别部。本发明根据核心语的确率和非核心语的确率之比识别使用者声音，即使在存在回音和杂音的环境下也可以正确识别使用者声音履行相应命令；本发明不仅可适用于AV仪器，还可适用于自动翻译装置、各种电器、携带电话、玩具等各种领域。
文档编号G10L15/28GK1941078SQ20051004732
公开日2007年4月4日申请日期2005年9月30日优先权日2005年9月30日
发明者申钟根, 柳昌东, 金相均, 金宗彧, 陈珉浩申请人:乐金电子(沈阳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：申钟根;柳昌东;金相均;金宗彧;陈珉浩
技术所有人：乐金电子(沈阳)有限公司
我是此专利的发明人