说话时段检测设备及方法、语音识别处理设备的制作方法

文档序号：2821732阅读：348来源：国知局

专利名称：说话时段检测设备及方法、语音识别处理设备的制作方法
技术领域：
本发明涉及在嘈杂环境中或在有许多人同时说话的地方进行语音识别处理时对说话时段的检测。
背景技术：
在通常的语音检测设备中，已经采纳了把说话中的语音作为声学信号处置并对该声学信号进行频谱分析的语音识别技术，以识别和处理语音信息。为了使用语音识别技术提供所希望的语音检测结果，从所检测到的语音信号中准确地识别说话内容以及准确地检测所关心的说话人是否实际在说话(说话时段检测(speaking period))是重要的。特别是在嘈杂环境中或在有许多人同时说话的地方进行语音识别时，检测说话时段是一个重要问题。
其理由在于，尽管在噪声小的环境中能通过观察被检测的语音信号的功率容易地检测出说话时段，但在这样的嘈杂环境中，由于被检测的语音信号有噪声添加其中，所以不能简单地从功率检测出说话时段。如果不能检测出说话时段，便不能识别出语音，即使在其后的处理中提供了能有力对抗噪声的语音识别设备。
对于检测说话时段已进行过若干研究。例如，Masakiyo Fujimoto和Yasuo Ariki的文章“在实际环境中使用送话器阵列和卡尔曼滤波的自动(handsfree)语音识别——交互TV前端系统的构建”，第4届DSPS教育者大会，第55-58页，2002年8月；以及Kazumasa Murai、KeisukeNoma、Ken-ichi Kumagai、Tomoko Matsui和Satoshi Nakamura的文章“使用口周围部分的图像的强力语言检测”，日本信息处理协会研究报告“语音语言信息处理”第034-01号，2000年3月，都是关于这些研究的。
这些文档中描述的技术以及其他现有技术的技术方法可大致分为两类一是试图只从语音信号中检测出说话时段，另一个是试图不只从语音信号还从非语音信号中检测出说话时段。

发明内容
上述两种方法每种都有问题。在试图只从语音信号中检测的情况中，一个不利方面是检测准确度显著地依赖于音量和环境噪声类型。为了实现根本不受环境噪声影响的对说话时段的强力检测，如由后一方法实现的从非语音信号中检测是重要的。
然而，在使用非语音信号的情况，存在的一个问题是需要为语音识别安装送话器以外的传感器。例如，如果把图像用作非语音信号，则必须提供摄像机，使唇部总是在视场范围内，而且还必须让唇部部是在该摄像机视场内的一个不变的位置。然而，在实践中不可能提供实现这种方式的摄像机。再有，需要图像识别技术从唇部图像中检测出说话时段。
一般地说，图像识别技术需要极其大量的操作。在嘈杂环境中进行语音识别的情况通常假定为是使用移动型终端(如移动电话)进行语音识别的情况。然而，这种移动型终端不具备适当的计算能力进行图像处理，所以实际上难于使用移动型终端进行图像处理，正如同解决上述问题不实际一样。
因此，本发明的目的是提供一种说话时段检测设备和说话时段检测方法，它能通过从EMG(肌动电流记录，它是非语音信号)检测说话时段解决提供检测非语音信号传感器问题和大量操作问题。本发明的另一目的是提供利用上述说话时段检测设备的语音识别处理设备、传输系统和信号电平控制设备。
根据本发明第一方面的说话时段检测设备包含检测说话人说话时产生的EMG的检测装置；和根据EMG检测装置检测到的EMG，检测说话时段的说话时段检测装置；其中该设备提取与说话时段检测装置检测到的说话时段有关的信息。根据这一配置，根据EMG检测说话时段是可能的。根据这一配置，不管环境噪声状况如何都能检测出说话时段，所以即使在嘈杂环境中语音识别也是可能的。
根据本发明第二方面的说话时段检测设备是根据第一方面的说话时段检测设备，其中EMG检测装置检测来自电极的EMG，这些电极就被设置在说话人使用的用于说话的终端机壳的一部分上，在说话人说话时这一部分与说话人的皮肤接触。根据这一配置，只要说话人利用其使用的终端并使电极与他/她的皮肤表面接触便能检测到EMG。
根据本发明第三方面的说话时段检测设备是根据第一或第二方面的说话时段检测设备，其中说话时段检测装置将EMG振幅值与一个预定阈值进行比较以检测该说话时段的说话起始时间和说话结束时间。根据这一配置，当说话人说话时造成肌肉活动，从而出现EMG的大振幅，因此，通过捕获大振幅能检测出说话时段，即说话开始时间和结束时间。
根据本发明第四方面的说话时段检测设备是根据第一到第三方面中任何一个的说话时段检测设备，进一步包含一个计数器，用于对EMG振幅值和预定阈值的比较结果计数，其中说话时段检测装置只当计数器的计数值超过一个预定值时才确定说话时段。根据这一配置，即使由于某种原因在EMG中包括一个瞬时大振幅，也能正确地确定说话时段。
根据本发明第五方面的说话时段检测设备是根据第一至第四方面中任何一个的说话时段检测设备，进一步包含存储装置用于保存说话人的说话语音信号；其中保存说话语音信号是在说话起始时间开始和在说话结束时间结束。根据这一配置，这一设备和语音识别设备之间的独立性能被增强，而且通用语音识别设备能与这一设备组合使用，无需在语音识别设备中做任何改变。
根据本发明第六方面的语音识别处理设备是对说话语音信号进行语音识别处理的语音识别处理设备，该语音识别处理设备包含语音识别处理装置用于对说话语音信号进行语音识别处理，该说话语音信号对应于根据第一至第四方面中任何一个的说活时段检测设备所检测出的说话时段。根据这一配置，检测说话时段而不受噪声影响是可能的，所以语音识别的准确度能得到改善。
根据本发明第七方面的语音识别处理设备是对说话语音信号进行语音识别处理的语音识别处理设备，该语音识别处理设备包含语音识别处理装置用于对说话语音信号进行语音识别处理，该说话语音信号是由根据第五方面的说话时段检测设备存储在存储装置中的说话语音信号。根据这一配置，检测说话时段而不受噪声影响是可能的，所以语音识别的准确度能得到改善。
根据本发明第八方面的传输系统是用于对相应于一个说话时段的说话语音信号进行编码处理并传输编码的语音信号的传输系统，该传输系统包含编码处理时间确定装置，用于根据说话时段确定编码处理时间，该说话时段是由根据第一至和五方面中任何一个的说话时段检测设备检测到的。根据这一配置，能通过检测说话时段避免不必要的通信，从而能降低功耗。
根据第九方面的信号电平控制设备是用于控制从送话器取出的输出信号的电平的信号电平控制设备，该信号电平控制设备包含控制装置用于根据说话时段控制输出信号的电平并控制不输出对应于非说话时段的语音，该说话时段是由根据第一至第五方面中任何一个的说话时段是检测设备检测到的。根据这一配置，通过根据检测到的说话时段控制从送话器取出的输出信号的电平，只有对应于说话时段的语音能被输出。例如通过开、关送话器的电源的开关、改变送话器的增益和改变扬声器的输出，控制那些对应于非说话时段的语音不被输出。
根据本发明第十方面的说话时段检测方法包含检测在说话人说话时产生的EMG的EMG检测步骤(对应于图4中的步骤S41)；以及根据EMG检测步骤检测到的EMG检测说话时段的说话时段检测步骤(对应于图4中的步骤S42至S44)；其中与说话时段检测步骤检测到的说话时段有关的信息被通告出来。根据这一配置，能根据EMG检测到说话时段。因此，说话时段能被检测出来而不论环境噪声状况如何，所以即使在嘈杂环境中语音识别也是可能的。
根据本发明，通过很简单的方法把提供给移动型终端的电极等按在接触皮肤，从而在不受环境噪声影响的情况下检测说话时段是可能的。因此可期望改善在嘈杂环境中语音识别的识别准确度。再有，通过检测说话时段能避免不必要的通信，从而能降低功耗。再有，通过根据检测到的说话时段控制从送话器取出的信号的电平，使得只有对应于说话时段的语音能被输出。

图1显示根据本发明的说话时段检测设备的配置；图2显示EMG和语音信号之间的关系；图3显示在时间序列中显示的EMG的RMS；图4是流程图，显示对一个EMG确定说话时段的处理举例；图5是流程图，显示对一个EMG确定说话时段的处理的变体举例；图6是方块图，显示一个配置举例，其中向图1的配置添加了一个计数器；图7是示意图，显示使用移动型终端的举例，在该终端中利用了根据本发明的说话时段检测设备；图8A和8B是示意图，显示用于EMG检测的表面电极的安排举例；图9是流程图，显示移动型终端的操作举例，在该终端中利用了根据本发明的说话时段检测设备；图10是流程图，显示移动型终端操作的另一个举例，在该终端中利用了根据本发明的说话时段检测设备；图11是流程图，显示移动型终端操作的又一个举例，在该终端中利用了根据本发明的说话时段检测设备；图12是方块图，显示一个配置举例，其中根据本发明的说话时段检测设备应用于一个移动电话终端；图13是方块图，显示另一个配置举例，其中根据本发明的说话时段检测设备应用于一个移动电话终端；图14显示语音信号、进行了VAD的帧序列以及编码帧序列之间的关系；图15显示语音信号和EMG之间的关系；图16显示产生EMG和语音信号的时间；
图17显示对EMG检测说话时段的时间和在移动电话一侧进行的处理的时间；图18A显示只使用VAD检测说话时段的情况中的配置；图18B显示使用VAD和EMG检测说话时段的情况中的配置；图19显示基于EMG的说话时段检测处理和基于语音信号的说话时段检测处理的结合点；图20显示在传送检测到的说话时段以进行语音识别处理的情况中的配置；图21显示如果使用EMG进行的说话时段确定有错则在其后修改所存储的数据以检测正确的说话时段的一种方法；图22A显示包括超音响耳机/扬声器的头戴送受话器；图22B显示包括头戴电话型扬声器的头戴送受话器；图23显示用于控制送话器电源开关通/断的配置；图24显示用于控制送话器电源开关通/断的操作流程；图25显示用于控制放大器增益改变的配置，该放大器用于放大从送话器输出的语音信号；以及图26显示用于改变向扬声器SP输出的配置。
具体实施例方式
现在将参考附图描述本发明的实施例。在下文的描述中引用的每个附图中，对于与其他图中相同的部分给出相同的参考数字。
(总体配置)图1是方块图，显示根据本发明的一个说话时段检测设备的主要部分的配置。根据本发明的说话检测设备1包含EMG检测部分11、EMG处理部分12、说话时段检测部分13以及说话时段通告部分14。
在该图中，EMG检测部分11在说话人说话时检测EMG，EMG检测部分11被配置成包括表面电极，在下文中将予以描述。就是说，EMG是通过表面电极检测到的，这些电极与直接在说话期间活动的肌肉上方的表面接触。这些电极的更具体安排将在下文中描述。
在EMG处理部分12，由EMG检测部分11检测到的EMG被放大。EMG处理部分12还以低通滤波器和高通滤波器等处理EMG以去掉噪声或有效地提取所希望的信号。再有，它计算说话时段检测部分13所需要的参数。
在说话时段检测部分13，根据由EMG处理部分12计算出的参数检测说话时段的起始点和结束点。
说话时段通告部分14向其后的语音识别算法通告已由说话时段检测部分13检测到的说话时段起始点和结束点，以使该算法进行语音识别。使用由说话时段通告部分14通告的说话时段起始点和结束点进行语音识别处理的语音识别算法不限于一种特定算法，任何算法都可使用。
根据上述配置，根据EMG检测说话时段是可能的。这样，说话时段能被检测到而不管环境噪声状况如何，从而在嘈杂环境中的语音识别是可能的。
(基本原理)图2是显示EMG和语音信号之间的关系，这是本发明的基本原理。在该图中，水平轴指示时间(以秒为单位)，垂直轴指示振幅。
该图显示当说话人重复发出日语母音“a-i-u-e-o”声音时从他的面颊部分测量的表面EMG以及与此同时测量的语音信号。在图的上部和下部分别示出EMGK和语音信号S。
应该指出，语音信号S和EMG K是同步的。更具体地说，对于约1.5至3.2秒的时段说话人发出“a-i-u-e-o”声音，观测到与此相对应的大振幅语音信号。在EMG中对于该时段也观测到大振幅。
对于在约4.7至6.3秒时段发出的“a-i-u-e-o”也有同样情况，而且对于在约8至9.5秒时段发出的“a-i-u-e-o”也有同样情况。在其他时段，说话人没有发出语音，环境噪声被混合其中。
本发明是由发明者对语音信号和EMG同步(如图2中所示)的发现所触发的。还发现不仅当发出的内容是“a-i-u-e-o”的时候而且当发出其他内容时语音信号和EMG都是同步的。简言之，在EMG中观测到伴随说话人说话时引起的肌肉活动的大振幅，因此能通过这一观测检测到说话时段。
图2中所示语音信号和EMG是在环境噪声不那么大的地方(在普通的办公室中)测量的。如果在环境噪声水平高的地方进行类似的实验，则环境噪声重叠到语音信号上。相反，EMG却有利地根本不受影响。
(说话时段检测处理)下面将具体描述检测说话时段处理。
图3显示对于EMG检测说话时段的处理举例。图3显示由图2中所示EMG计算出来的均方根(下文中简称RMS)并以时间序列形式显示。在该图中，水平轴指示时间(以秒为单位)，垂直轴指示RMS值。RMS值是以帧周期20ms和帧长度50ms计算出的。
如图3中所见，当发出语音时的值显然大于没有发出语音时的值。在该图中，当没有发出语音时EMG的RMS值约0.01。所以，通过设置阈值，如0.02和0.03，并将它与RMS值进行比较，便能检测出说话时段。就是说，当RMS值超过设定阈值时，该时段能被检测为说话时段。而当它低于设定阈值时，该时段能被检测为非说话时段。
(确定说话时段处理)图4是流程图，显示对于EMG确定说话时段的处理。
在该图中，预先设定上文描述的阈值(步骤S40)。然后开始EMG测量(步骤S41)。然后，由测量到的EMG顺序计算RMS值(步骤S42)在这一情况中，帧周期和帧长度可分别为20ms和60ms。其他值可以使用。
然后确定这些值是否超过预先设定的阈值(步骤S43)。如果阈值被超过，则该时段被确定为说话时段(步骤S44)。反之，如果该阈值未被超过，则该时段被确定为非说话时段(步骤S45)。上述处理被重复进行。
尽管图中的流程图显示的是当从EMG计算出RMS时所进行的处理，但本发明不是必须要求使用RMS。就是说，可以使用从测量的EMG中提取的各种特征量。例如可以使用平均相对变化(ARV)、积分EMG(iEMG)信号、EMG频谱等。
再有，与阈值交叉点个数可用于代替图4中的RMS。就是说，对测量的EMS超过预先设定阈值(例如10(mv))的位置个数进行计数，并可使用该计数个数。例如，如果测量的EMG的采样值是1、5、12、8和-2(mv)，而阈值是10(mv)，则计数的交叉点个数值是“1”。如果该阈值是6(mv)则计数的交叉点个数值是“2”。这样，使用带有预先设定预值的交叉点个数代替RMS也能进行上述同样处理。
例如，EMG的采样频率是2000Hz。
如上所述，通过比较EMG的振幅值和预定的阈值，能检测出说话时段的说话起始时间和说话结束时间。简言之，当说话人说话造成肌肉活动时，在EMG中出现大振幅，所以能通过抓住大振幅检测到说话时段，即说话起始时间和说话结束时间。
(确定处理的变体)图5中所示流程图能添加到图4中所示流程图。图4中所示流程图有一个问题，即如果由于某种原因一个大振幅瞬时包括在EMG中，则该时段被确定为说话时段，即使它是非说话时段。为了减小这种短时波动的影响，图5中所示流程图能被加到图4的流程图中并替代其步骤S43至S45。
在图5中，“状态”是指两种时段之一，即说话时间和非说话时段。例如，为了使一个时段被确定为非说话时段(或说话时段)，则在紧靠该时段之前必须有多个时段已被确定为非说话时段(或说话时段)。为实现这一点，计数器15添加到图1配置中，以对重复的相继非说话时段(或说话时段)计数，如图6中所示。计数器值与一个预置阈值进行比较。当该值超过阈值时，该时段第一次被确定为非说话时段(或说话时段)。确定多时段个数的周期可以是例如20ms。
在图4的步骤S42计算出EMG的RMS之后，过程进入图5中的步骤。首先，计数器的计数值被复位(步骤S51)。如果上文描述的状态尚未被改变，则计数器的计数值增1(从步骤S52到步骤S53)。如果计数器的计数值在增1后尚没有超过预置阈值，则计数值再次增1(从步骤S54至步骤S52)。
与此相反，如果计数器的计数值在增1后超过预置阈值，则该状态被确定，从而确定一个说话时段或非说话时段(从步骤S54到步骤S55)。
如果在步骤S52状态已经改变，则计数器的计数值被复位(从步骤S52到步骤S51)，于是过程继续。
如果添加上述图5所示流程图，则造成所确定的说话起始点(或说话结束点)在时间上落后于实际说话起始点(或说话结束点)的问题。然而，以与上述计数器的计数值进行比较的阈值所对应的时间对根据图4和图5的流程图所确定的说话时段进行校正，能检测到实际的说话起始点和说话结束点。
例如，如果在时间“0”(在此之前是非说话时段)开始计数值增量，在这一点不确定说话时段。时间被增量为“1”、“2”、“3”等等，当计数值达到“n”时，这是阈值，则第一次确定说话时段。所以，尽管是在计数值“n”所对应的时间确定说话时段，但说话实际上是在时间“0”开始。因此，通过以从计数值“0”到“n”的时段所对应的时间进行校正，能检测到正确的说话起始时间和说话结束时间。
再有，通过采纳图5中所示流程图，得到的一个好处是能应对在图2中所示说话时段序列上EMG水平可能变得很低的问题。
就是说，在图2中确认一个现象，即在2秒点和2.5秒点附近EMG振幅下落，在图4的流程中，这些点被看作是非说话时段。然而，通过添加图5的流程图，这些部分不被确定为非说话时段而能被看作说话时段。
(说话时段检测方法)在上述说话时段检测设备中，采取下文所述说话时段检测方法。就是说，采取了一种说话时段检测方法，它包含检测在说话人说话时产生的EMG的EMG检测步骤(对应于图4中的步骤S41)；以及根据EMG检测步骤检测到的EMG检测说话时段的说话时段检测步骤(对应于图4中的步骤S42至S44)；其中与在说话时段检测步骤检测到的说话时段有关的信息被通告出来。根据这一配置，能根据EMG检测到说话时段。因此，说话时段能被检测出来而不论环境噪声状况如何，所以即使在嘈杂环境中语音识别也是可能的。
现在将描述一个例子，其中根据本发明的说话时段检测设备被应用于移动型终端。
(使用举例)图7显示使用移动型移端的一个举例，其中利用了根据本发明的说话时段检测设备。在该图中，假定利用移动型终端，如移动电话，进行通信。
如图中虚线所示，移动型终端1a具有用于EMG检测的表面电极10a和10b以及送话器20。用于检测EMG的表面电极10a和10b被放在与作为说话人的使用者100面部皮肤接触的一侧。因此，在使用移动型终端1a的过程中，能从接触一对EMG检测用表面电极10a和10b每一个的皮肤检测EMG。
图中所示移动型终端1a是所谓翻动型终端，它具有铰链21。当然，本发明可应用于不具有铰链21的终端。
当利用诸如移动电话等移动型终端进行通信时，终端的送话器位于使用者的口的附近，而扬声器位于他/她的耳朵附近，这被认为是一个不可改变的事实。
假定当前的移动电话终端在其形式上将来不会有大的改变，尽管它可能小型化。这样，重要的一点是移动型终端，特别是用于会话的终端，如移动电话终端，在使用时要与皮肤接触。这意味着电极表面能与皮肤接触而不会给使用者造成不舒服的感觉。
当如同现有技术中已做的那样使用摄像机检测说话时段时，摄像机或传感器必须放在只为此目的所希望的位置。然而，在使用EMG的情况中，有可能检测说话时段而不改变通常的形式，即利用与皮肤接触的移动型终端的形式，而且不进行进一步的操作或设置传感器。
简言之，由于移动型终端在使用时通常被压在皮肤上，所以这一使用形式和本发明之间的亲合性高。
(电极的安排)图8A和8B显示电极安排举例。在图中，所显示的举例中移动型终端具有用于EMG检测的电极。在图8A所示举例中，移动型终端1a具有相对较大的表面电极10c和10d。表面电极10c和10d每个为例如2cm×3cm大小的平面电极。表面电极10c是要与例如使用者的面颊部分接触，而表面电极10d是要与例如使用者的口部接触，从而能从一对电极检测到EMG。
在图8B所示举例中，移动型终端1a具有针状表面电极10e和10f。针状表面电极10e和10f每个为例如直径1mm的针型电极。针状表面电极10e和10f是要与使用者的面颊部分接触，从而能从一对电极检测到EMG。
上文描述的表面电极只是举例，在移动型终端1a的机壳上可提供任何形式的一对电极以检测EMG。然而，要求在移动型终端1a的机壳上当说话人说话时与他的皮肤接触的那部分上提供表面电极。用于测量经由上述表面电极得到的EMG的电路配置是公知的，所以对它的描述被略去。
(操作举例)图9是流程图，显示移动型终端的操作举例，在该终端中利用了根据本发明的说话时段检测设备。
在该图中，一位使用者首先以他/她的皮肤接触移动型终端。在接触之后，经由与皮肤接触的EMG检测用表面电极检测到EMG(步骤S81)。
当使用者开始说话时，在他/她的口部周围的肌肉开始动作，所以在检测到的EMG中观测到与非说话时间(没进行说话的状态，即在通常的语音识别中的静寂部分)相比大的振幅。通过检测这一大振幅，说话起始点被检测到(步骤S82)。
当说话结束时，检测到的EMG的振幅变小。通过检测振幅变小的那一点，说话结束点能被检测到(步骤S83)。
然后，检测到的说话起始点和说话结束点被向外通告(步骤S84)。其后的语音识别算法或语音识别设备得到通告并被促使开始语音识别。
上述操作重复地进行(步骤S85)。
图10是流程图，显示移动型终端操作的另一个举例，在该终端中利用了根据本发明的说话时段检测设备。图10中的操作与图9中的操作的差别在于，当检测到说话起始点时，它被立即通告给识别算法或语音识别设备。
在该图中，一位使用者首先以他/她的皮肤接触移动型终端。在接触之后，经由与皮肤接触的EMG检测用表面电极检测到EMG(步骤S91)。
当使用者开始说话时，在他/她的口部周围的肌肉开始动作，所以在检测到的EMG中观测到与非说话时间相比大的振幅。通过检测这一大振幅，说话起始点被检测到(步骤S92)。响应对说话起始点的检测，该内容的信息被向外通告(步骤S93)。
当说话结束时，检测到的EMG的振幅变小，通过检测振幅变小的那一点，说话结束点能被检测到(步骤S94)。响应对说话结束点的检测，该内容的信息被向外通告(步骤S95)。上述操作重复地进行(步骤S96)。
如上所述，通过向外通告检测到的说话起始点和说话结束点，其后的语音识别算法或语音识别设备被通告并被促使开始语音识别。
在根据图10所示流程图进行的操作中，能分别进行由语音识别算法或语音识别设备进行的语音识别处理和说话时段检测处理。换言之，尽管在图9所示流程图的情况中要求语音识别算法或语音识别设备与说话时段检测处理紧密关联，但在图10所示流程图的情况中它们能分开操作。
再有，图11是流程图，显示移动型终端操作的又一个举例，在该终端中利用了根据本发明的说话时段检测设备。在图11所示流程图中，与图9和图10中所示流程图相比，与语音识别算法或语音识别设备的独立性更高。
一位使用者首先以他/她的皮肤接触移动型终端。在接触之后，经由用于EMG检测的表面电极检测到EMG(步骤S101)。
当使用者开始说话时，在他/她口部周围的肌肉开始动作，所以在检测到的EMG中观测到与非说话时间相比大的振幅。通过检测这一大振幅，说话起始点被检测到(步骤S102)。响应对说话起始点的检测，开始将语音信号保存在语音信号数据库DB中(步骤S103)。
当说话结束时，检测到的EMG的振幅变小。通过检测振幅变小的那一点，说话结束点能被检测到(步骤S104)。响应对说话结束点的检测，向语音信号数据库DB中保存语音信号的操作结束(步骤S105)。在保存结束后，保存在语音信号数据库DB中的语音信号数据被向外通告，如通告给一个音频识别算法(步骤S106)。
如上所述，在图11所示流程图中，通过使用EMG检测到说话起始点和说话结束点，对于与其对应的说话时段，语音信号数据被保存在语音信号数据库DB中。然后，所保存的语音信号数据被传送给一个识别算法或语音识别设备。
根据上述操作，有可能利用一个移动型终端，其中根据本发明的说话时段检测设备与通用的语音识别算法或语音识别设备组合使用，而无需特别改变语音识别算法或语音识别设备。下文中将描述与语音识别设备的组合。
(说话时段检测设备概要)如果将根据本发明的说话时段检测设备应用于移动电话终端，其配置将如图12中所示的样子。就是说，移动型终端1a包含说话时段检测设备1和通信控制部分2。通信控制部分2根据由说话时段检测设备1通告的说话时段上的数据进行语音识别处理。通信控制部分2可以是实现第二代移动电话通信、第三代移动电话通信或更下一代移动电话通信的那种设备并可以是任何配置的。
与通信控制部分2连接的有送话器20、扬声器SP、显示部分D以及天线ANT。
在利用上述图11的配置时，说话时段检测设备1和通信控制部分2之间的独立性被增强，上述语音信号数据库DB要放在说话时段检测设备1和通信控制部分2之间，如图13中所示。通过把语音信号数据保存在语音信号数据库DB中，该语音信号数据从说话时段检测设备1传送到通信控制部分2。
(应用于传输系统)上述说话时段检测设备能应用于传输系统，用于对相应于说话时段的说话语音信号进行编码处理并传输编码的语音信号。现在将对该传输系统进行描述。
诸如移动电话等移动型通信终端不能装备以大容量电池。所以，为了延长移动型通信终端的连续使用时间，必须改善电池寿命。因此，在移动电话中，使用语音活动检测(VAD)确定语音的存在/不存在。对于非说话时段，进行间歇式传输，其中只传输极小量信息或者停止传输。间歇式传输对于改善电池寿命和减小移动电话干扰是有效的。这在Naka、Ohya、Saegusa和Hama的文章“特征移动多媒体信号处理技术—语音编码技术”(NTT DoCoMo技术杂志，第8卷，第4期，第25-33页，2001)中被描述。
VAD的优点不限于此。在码分多址(CDMA)方法中还提供了有效利用通信信道的优点，这里的CDMA方法是用于当前已商业化的第三代移动电话的一种方法。就是说，通过在非说话时段减少被传输的信息，通信信道能被分配给不同的使用者，从而使通信信道能被有效利用。
在VAD方法中，被检测信号的功率、音调或语调被提取出来以检测说话时段。应用于移动电话的VAD特别在3GPP TS26.094中被规定。对长度为20ms、40ms等的每帧语音信号进行编码并传输。
然而，在VAD中使用语音信号检测说话时段，所以在实际说话之后确定说话已经开始。就是说在原理上，由VAD确定的说话开始时间落后于实际说话开始时间。用于编码的同一帧被用作进行VAD的帧。由VAD进行的确定是在相应于帧长度的时间已经过去之后进行的，然后进行这一确定的处理。所以，存在一个问题，即进行编码的时间落后于由VAD进行的确定，从而造成延时。
例如，如果说话起始时间对应于一帧的起始，则至少需要20ms(相应于所用帧长度对应的时间)之后才确定它是说话起始时间。再有，除此之外，还造成与VAD的确定处理所需时间对应的延时。在诸如使用移动电话的语音呼叫等实时通信中，延时越短越好。所以，对于VAD造成的延时，是越短越好。
再有，如果说话起始时间位于一帧的中间或后一半，则非说话时段和说话时段混合在包括实际说话起始时间的一帧中。例如，图14显示语音信号S、进行VAD的帧序列B以及编码的帧序列C。对于进行VAD的帧序列B，加阴影的帧被确定为非说话时段，未加阴影的帧被确定为说话时段。对于编码的帧序列C，有半色调点网格的帧以低比特率编码，而没有半色调点网格的帧以高比特率编码。尽管以高比特率编码的帧以高质量发送和接收，但以低比特率编码的帧则以低质量发送和接收。
如图中所示，实际说话时段的说话起始时间位于进行VAD的帧序列B中的帧F中部。所以，如图中所示，帧F可被确定为非说话时段。结果，在这种情况中被确定的说话起始点落后于实际的说话起始点。结果，在实际说话起始部分的数据可能被丢掉。
再有，如图14中所示，通常语音信号S的特征在于它的振幅逐渐增大，在说话的开始不会观测到突然的大振幅。所以，准确地检测说话的起始是困难的。如果用于检测语音信号的阈值设低，它可能更容易被检测到。然而，由于环境噪声造成误检测的可能性将增大。因此，需要阈值设为高到某种程度。然而，随着阈值设为高到某种程度，又难于抓到小振幅的说话起始。特别是在嘈杂环境下，准确地检测说话起始是困难的，因为当说话音量小而且语音信号被埋入噪声时以VAD检测说话是困难的。由于上述理由，对应于实际说话起始的一帧被确定为非说话时段，这造成诸如丢失说话起始和降低呼叫质量等问题。
再有，存在另一个问题，即在嘈杂环境下，由于环境噪声的影响，使用者不发出语音的时段(即被适当地确定为非说话时段的时段)被确定为说话时段。这造成信息必须被不必要地发送、移动电话的电池寿命被缩短以及通信信道被不必要地占用等问题。
如果允许延时，使用只以语音信号检测说话时段的方法是没问题的。这是因为能通过其后重看波形能识别说话起始点。然而，对于使用移动电话的语音通信，实时通信是重要的，延时必需要尽可能短。例如，通过总是以高比特率传输说话信号，不管该时段是非说话时段还是说话时段，而且不使用VAD，延时能被缩短。然而，改善移动电话的电池寿命和有效利用通信信道是需要的，而且不使用VAD的方法不能是现实的解决方案。因此，为了避免丢失说话起始和降低通信质量，必须在实际说话起始时间之前进行说话时段的确定。再有，为了避免不必要的通信，即便在嘈杂环境中也必须适当地检测说话时段，而且希望使用一种不受环境噪声影响的方法来检测说话时段。
一般注意到在语音信号之前观测到EMG。图15显示EMG实际观测的举例。该图显示在发出“nana”声的情况中语音信号S和EMGD的波形。参考该图，发现在语音信号S之前时间t时观测到EMGD。
图16显示产生EMG和语音信号的时间。如图中所示，当进行说话运动的指令从大脑传送到肌肉时(步骤S201)，首先产生EMG(步骤S202)，并且开始肌肉收缩(步骤S203)。然后开始产生语音(步骤S204)。这样，说话开始了。
图17显示对EMG检测说话时段的时间和在移动电话一侧进行的处理的时间。参考该图，在说话人一侧的机制中，从产生EMG(步骤S202)到开始产生语音(步骤S204)的时段是非说话时段，而在产生语音(步骤S204)之后的时段是说话时段。
在说话时段检测设备一侧，对于非说话时段进行测量EMG和检测说话开始的例程(步骤S205)。然后通过检测EMG的产生来检测说话的开始，并将说话的开始通告移动电话一侧(步骤S206)。然后，说话时段检测设备进入检测说话结束的常规处理。说话的结束也能由EMG检测到。
在移动电话一侧，在非说话时段进行间歇式传输(步骤S208)。然后，当由说话时段检测设备通告说话的起始时，在移动电话一侧的编码参数被改变(步骤S209)，并在其后的说话时段进行连续传输(步骤S210)。
EMG能被测量而不受环境噪声的影响。因此，通过使用EMG检测说话时段，有可能在实际说话开始时间之前进行说话时段处理而不受环境噪声的影响。
图18A显示只使用VAD检测说话时段的情况中的配置，图18B显示使用VAD和EMG检测说话时段的情况中的配置。在对应于现有技术方法的图18A中，由VAD部分220检测说话时段的结果来确定由编码设备210进行编码的时间，从而以语音信号作为输入产生位流输出。在对应于根据本发明的方法的图18B中，由编码设备210进行编码的时间不仅由VAD部分220检测说话时段的结果来确定，而且由说话时段检测设备230使用EMG检测说话时段的结果来确定。通过如上述那样检测说话时段，能避免不必要的通信和减小功耗。
通过组合根据EMS的说话时段检测和根据语音信号的说话时段检测，有可能更强有力地检测说话时段。当进行打呵欠、咳嗽和动口等运动而没有进行说话时，与它对应的时段可能被只使用EMG的方法检测为说话时段。然而，通过组合不受环境噪声影响的EMG和不受那些不导致说话的运动影响的语音信号，更强力的说话时段检测是可能的。就是说，如图19中所示，通过结合根据EMG的说话时段检测处理(步骤S211)和根据语音信号的说话时段检测处理(步骤S212)所进行的结合处理(步骤S213)，便得到最终的说话时段检测结果输出(步骤S214)。
在进行结合处理时，在3GPP TS26.094中规定的VAD能用于基于语音信号的说话时段检测。下述两种方法能用于结合基于EMG的说话时段检测和基于语音信号的说话时段检测。
第一种方法是根据每种处理的说话/非说话检测结果得到最终检测结果。在这种情况中，只有由两种处理结果确定为说话时段的时段才可最终确定为说话时段。或者至少由两种处理之一确定为说话时段的时段可最终确定为说话时段。
第二种方法是根据在各自处理检测到的信号阶段所得到的参数来得到最终检测结果。这些参数对应于要确定的时段是说话时段的概率或似然率，并对这些参数进行阈值处理以检测说话时段。例如，在EMG的情况中，参数是RMS。
在第二种方法中，可对于作为两种处理的参数加权和相加结果而得到的参数进行阈值处理，或可对于作为两种处理的参数相乘的结果而得到的参数进行阈值处理。通过对参数加权，可以指定哪个参数要加权更大。例如，通过在嘈杂环境中对EMG加权大些而在较小噪声的环境中对语音信号加权大些，最终检测结果的准确度能得到改善。
不难把EMG测量装置包含进移动电话。由于移动电话通常用于与面部接触，它可配置成例如参考图7描述的那样以便测量EMG。根据这一配置，它的可用性不会特别被降低。
如上所述，通过使用EMG，在实际说话开始时间之前确定说话时段是可能的。通过把这一方法应用于移动电话的VAD，有可能避免丢失说话的开始部分和降低通信质量。再有，通过使用EMG确定说话时段，有可能确定说话时段而不受环境噪声的影响。通过把这一方法应用于移动电话的VAD，有可能只进行必要的通信而不进行不必要的通信。结果，电池寿命得到改善，通信信道能得到有效利用。
(语音识别设备)在语音识别中，通过对从送话器输入的语音信号进行信号处理，识别出说话的内容。当前进行的语音识别有一个问题，即在噪杂环境中语音识别的准确度降低。造成在嘈杂环境中识别准确度降低的因素是，例如，除了所关心的语音信号外还混入了噪声，以及不能适当地确定说话时段。对于前一个因素，已经提议了一种方法模拟混有噪声的语音信号。
再有，已经提义一种频谱扣除法(下文中称作SS方法)用于从测量信号中扣除噪声分量，以改善语音识别的准确度。S.F.Boll在“使用频谱扣除抑制说话中的声音噪声”(IEEE trans.声学、说话和信号处理，第27卷，第2期，第113-120页，1979)一文中描述了SS方法。
作为由语音信号检测说话时段的方法，有一种由计算信号功率或音调来检测说话时段的方法。这一方法在3GPP TS26.094中被说明。
在使用语音信号检测说话时段的情况中，在嘈杂环境中检测说话时段是困难的。如果不能检测到说话时段，自然就不能进行语音识别。例如，如果一个非说话时段误确定为说话时段，便可能造成插入误差(未说出的词或句子被插入识别结果造成的误差)，而如果一个说话时段误确定为非说话时段，则可造成丢失误差(说出的词或句子未被识别造成的误差)。SS方法是这样一种方法，其中从语音信号和噪声信号混合的观测信号中扣除噪声信号分量，从而只提取语音信号。尽管这一方法对于识别混有噪声的信号是有效的，但如果不能检测到说话时段，自然就不可能应用这一方法。
如果可能检测说话时段而不受环境噪声的影响，则能降低语音识别中的误差。再有，如果可能适当地检测说话时段，则能更有效地应用SS方法，从而能改善识别准确度。由于这一原因，上述EMG被采用。
作为与语音识别组合的情况中使用的方法，有一种方法是把检测到的说话时段中的语音信号数据临时存储在语音信号数据库中，以在说话结束之后将其发送给语音识别系统，如图11中所示，以及一种只向语音识别系统传送被检测到的说话时段的方法。
前一种方法的特征在于一个语音信号能被多个语音识别系统处理，以及如果使用EMG进行的说话时段确定有误，则在以后能修正错误并传送相应于适当说话时段的语音信号。
为实现后一种方法，如图20所示，它可被配置成含有测量EMG(步骤311)、检测说话起始点(步骤S312)和检测说话结束点(步骤S313)的说话时段检测部分301，以及含有测量语音信号(步骤S321)、开始语音识别(步骤S322)和终止语音识别(步骤S323)的语音识别部分300。当开始测量EMG(步骤S311)和测量语音信号(步骤S321)时，如果检测到说话起始点(步骤S312)，则开始语音识别(步骤S322)。如果检测到说话结束点(步骤S313)，则语音识别结束(步骤S323)。根据这一过程，只对检测到的说话时段进行语音识别，所以该方法的特征在于它能以较小存储器实现，处理能比前一种方法更轻快地进行，并且能容易地实现与现有语音识别系统的集成。
现在将参考图21描述一种方法，其中如果使用EMG确定说话时段有误，则在其后修改所存储的数据以检测到适当的说话时段。图中显示没有说话时的EMGD和对EMGD确定说话时段的结果。
当进行诸如打呵欠、咳嗽和动口等运动而没有说话时，对应于该运动的信号混入EMGD。在该图中，从3700ms附近的点到4500ms附近的点可认出这一信号的混合。如果在这种情况下只使用EMGD确定说话时段，则上述时段可能被确定为说话时段。
在该图中，根据初始确定结果，图中示为带有半色调点网格的两帧被检测为说话时段。然而，从图中6000ms处的点回看确定为说话时段的两帧，它们能被认为是并不伴随说话，因为确定为说话时段的两帧所对应的语音信号功率低，而且确定为说话时段的时段长度短。通过其后得到的其他信息或上述的其后回看，错误的确定能被修改。
这种误确定的判据应由所关心的任务或说话的种类确定(例如，只是相继数字，自然会话，只是特定词，如地点名等)或使用者或周边环境特征(例如，咳嗽或打呵欠倾向，环境噪声水平等)。在该图中，作为其后回头看当初已确定为说话时段的那些时段的结果，这些时段被修改为非说话时段作为最后确定结果。于是有可能更适当地检测说话时段。
再有，如在“应用于传输系统”一节中描述的那样，有可能不只使用EMG而是与语音信号组合使用EMG来检测说话时段。
当本发明应用于移动电话时，移动电话能用作如图8和图9所示终端。当本发明应用于头戴送受话器时，头戴送受话器能如图22A和图22B所示那样配置。就是说，如图22A中所示，EMG测量部分50具有头戴送受话器40，其中集成了送话器20和超音响耳机/扬声器30。如图22B中所示，EMG测量部分50具有头戴送受话器40，其中集成了送话器20和头戴电话型扬声器31。两个EMG50都具有测量EMG用电极，而且这些电极放在与使用者100面部皮肤接触的一侧。
通过利用如图22A或图22B所示配置的头戴送受话器，有可能与图7和图8中的情况类似地检测EMG，根据EMG检测说话时段以及进行语音识别处理。
如上所述，有可能检测说话时段而不受噪声影响，于是SS方法能有效地应用于识别混有噪声的语音信号，从而能实现改善语音识别准确度和带有少量插入误差和丢失误差的语音识别。
(信号电平控制设备)对于需要通过电话与他人谈话(特别是与客户谈话)的职业，例如电话预约员，重要的是不使通信对象不舒服和不要不必要地泄漏保密信息。在多人以送话器说话的场合，例如在会议上，在讨论时，或在电视台演播室中，必须使与听众通信的语音信号成为没有混入噪声的高质量语音信号。
这两种场合的一个共同点是当在他/她的头上带有送话器或在身上带有送话器的人不是正在说话时，由送话器捕获的噪声不应传送到通信对象或听众。例如，在电话预约员的情况中，当转接员不说话时，环境噪声不应被传送，而当在预约员周围说到保密信息内容(如个人信息)时，这些信号不应被传送。对于会议、讨论或电视台演播室的情况也是如此。
为实现这一点，例如向电话机提供暂停(hold)功能，向出席会议或讨论的说话人所用送话器提供电源开关。通过开/关该功能或开关，当没有说话时能避免不必要的噪声通信。在电视台演播室中，确定是否有另一个人接受送话器的输入，通过在该输入被接受时接通开关和在受该输入没有被接受时关掉开关，能防止混合不必要的噪声。
当如上述以手工设置来自送话器的输入是否应被接受时，这项工作是烦人的。作为自动进行这一工作的一种方法，可以想象使用上述VAD只在检测到说话时段时接受来自送话器的输入。然而，用于根据语音信号检测说话时段的VAD存在的一个问题是由VAD确定为说话起始时间的时间落后于实际的说话起始时间，这造成延时，说话起始部分的丢失和质量降低。使用VAD还有一个问题，即难于准确检测说话时段，因为VAD对来自环境噪声的影响敏感。
通过使用上述EMG检测说话时段，有可能在说话实际起始时间之前确定说话起始，并确定说话时段而不受环境噪声影响。检测说话时段的方法已经描述过，所以将略去对它的描述。
图23显示控制送话器电源开关通/断的配置。在该图中，由电池BT经由电源开关SW向送话器20供电。送话器20将输入的语音转换成语音信号，它是一个电信号。从送话器20输出的语音信号被传送到放大器22等。在这一情况中，电源开关SW的通/断控制是根据说话时段检测结果进行的。就是说，对检测到说话起始点作出响应，电源开关SW被控制为“通”。然后，对检测到说话结束点作出响应，电源开关SW被控制为“断”。
图24显示上述操作流程，如图中所示，上述操作的配置是含有测量EMG(步骤S311)、检测说话起始点(步骤S312)和检测说话结束点(步骤S313)的说话时段检测部分301以及含有接通送话器开关(步骤S331)、开始语音信号通信(步骤S332)、切断送话器开关(步骤S333)和终止语音信号通信(步骤S334)的语音收集/语音通信部分302。当开始测量EMG时(步骤S311)，如果检测到说话起始点(步骤S312)，则送话器电源开关被接通(步骤S331)。通过接通送话器电源开关，语音信号通信开始(步骤S332)。反之，如果检测到说话结束点(步骤S313)，则送话器的电源开关被切断(步骤S333)。通过切断送话器电源开关，语音信号通信终止(步骤S334)。
如果根据说话时段控制从送话器取出的输出信号的电平，则根本没必要接通或切断送话器电源开关。取代接通/切断送话器电源开关，可以改变放大送话器输出信号的放大器的增益或改变到扬声器的输出。例如，如图25中所示，在控制改变放大送话器20输出音频信号的放大器22的增益的情况中，放大器22的增益可以被增大以响应检测到说话起始点和被减小以响应检测到说话结束点。如图26中所示，在改变到扬声器SP输出的情况中，对音量控制电路23的音量设置可以被增大以响应检测到说话起始点和被减小以响应检测到说话结束点。
除上述配置外，任何配置可以利用，只要它能避免与非说话时段对应的语言传送给通信对象或听众。简言之，如果能控制从送话器取出的输出信号的电平，而且与非说话时段对应的语音能被控制不输出，那就足够了。
在将图23的结构应用于移动电话的情况中，移动电话能用作如图8和图9中所示终端。当图23的配置用于头戴送受话器时，它被利用为如图22A和图22B所示那样。
如上所述，通过使用EMG检测说话时段，有可能在说话实际起始时间之前确定说话起始，并确定说话时段而不受环境噪声影响。这样，有可能得到不混入噪声的高质量语音信号。
针对第一方面的描述，本发明能在下列各方面实现(1)根据第一方面的说话时段检测设备，其中EMG检测装置检测来自与说话人皮肤表面接触的电极的EMG。据此，只有使电极与说话人皮肤表面接触才能检测到EMG。
(2)根据上述(1)的说话时段检测设备，其中电极被放在说话期间由使用者使用的终端上。据此，能利用由说话人使用的终端检测EMG。
一般地说，在语音识别处理中检测说话时段是重要的。已经提出只使用语音信号检测说话时段的方法和使用说话人的口运动图像的方法。然而，当环境噪声水平高时或当许多人同时说话时，以前一种方法不可能准确地检测到说话时段。而后一种方法实际上是不方便的，因为它要求检测说话时段所用传感器(如摄像机)放在一个特定位置。
根据本发明，使用说话人说话时产生的EMG检测说话时段。当说话人说话引起肌肉运动时，EMG中出现大振幅，通过发觉该振幅，说话时段能被检测到。
通过为移动型终端提供电极，能从说话人的皮肤测量由说话产生的EMG。所以，本发明与移动型终端的使用形式(即通过把终端按压接触皮肤来使用终端的形式)有高亲合性。即使当环境噪声水平高时也能检测到说话时段而没有任何麻烦。再有，不必要在特定位置提供传感器。
如果根据检测到的说话时段进行语音识别处理，则识别准确度能得到改善。再有，如果根据检测到的说话时段进行编码处理，则功耗能被降低而且移动通信终端(包括移动电话)的电池寿命能得到改善。再有，通过根据检测到的说话时段控制从送话器取出的输出信号电平和控制与非说话时段对应的语音使其不被输出，能够得到其中不混入噪声的高质量语音信号。
权利要求
1.一种说话时段检测设备，包括检测说话人说话时产生的EMG的EMG检测装置；和根据EMG检测装置检测到的EMG，检测说话时段的说话时段检测装置；其中该设备获取与说话时段检测装置检测到的说话时段有关的信息。
2.根据权利要求1的说话时段检测设备，其中EMG检测装置检测来自电极的EMG，所述电极设置在说话人使用的用于说话的终端机壳的一部分上，在说话人说话时该部分与说话人的皮肤接触。
3.根据权利要求1或2的说话时段检测设备，其中说话时段检测装置将EMG振幅值与预定阈值进行比较以检测该说话时段的说话起始时间和说话结束时间。
4.根据权利要求1至3任何一个的说话时段检测设备，进一步包含一个计数器，用于对EMG振幅值和预定阈值的比较结果计数，其中说话时段检测装置只当计数器的计数值超过预定值时才确定说话时段。
5.根据权利要求1至4任何一个的说话时段检测设备，进一步包含存储装置，用于保存说话人的说话语音信号；其中说话语音信号的保存在说话起始时间开始和在说话结束时间结束。
6.一种对说话语音信号进行语音识别处理的语音识别处理设备，该语音识别处理设备包含语音识别处理装置用于对说话语音信号进行语音识别处理，该说话语音信号对应于根据权利要求1至4任何一个的说话时段检测设备检测到的说话时段。
7.一种对说话语音信号进行语音识别处理的语音识别处理设备，该语音识别处理设备包含语音识别处理装置用于对说话语音信号进行语音识别处理，该说话语音信号是由根据权利要求5的说话时段检测设备存储在存储装置中的说话语音信号。
8.一种对与说话时段相对应的说话语音信号进行编码处理并传输编码的语音信号的传输系统，该传输系统包含编码处理时间确定装置，用于根据说话时段确定编码处理时间，该说话时段是由根据权利要求1至5任何一个的说话时段检测设备检测的。
9.一种控制从送话器取出的输出信号的电平的信号电平控制设备，该信号电平控制设备包含控制装置，用于根据说话时段控制输出信号的电平并控制不输出对应于非说话时段的语音，该说话时段是由根据权利要求1至5任何一个的说话时段检测设备检测的。
10.一种说话时段检测方法，包含检测在说话人说话时产生的EMG的EMG检测步骤；以及根据EMG检测步骤检测到的EMG检测说话时段的说话时段检测步骤；其中与说话时段检测步骤检测到的说话时段有关的信息被通告。
全文摘要
以一种简单而强力的方法检测出语音识别处理所需要的说话时段。说话时段是根据说话人说话时产生的EMG检测出来的。当说话人说话引起肌肉活动时在EMG中观测到大振幅。通过观测这个大振幅能检测出说话时段。经由移动型终端上提供的电极能测量来自说话人皮肤的EMG。由于移动型终端通常是按压接触皮肤使用的，所以这一应用形式与本发明的亲合性很高。
文档编号G10L15/04GK1601604SQ200410078790
公开日2005年3月30日申请日期2004年9月17日优先权日2003年9月19日
发明者真锅宏幸, 平岩明, 林宏树, 杉村利明, 三木俊雄申请人:株式会社Ntt都科摩

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：真锅宏幸;平岩明;林宏树;杉村利明;三木俊雄
技术所有人：株式会社NTT都科摩
我是此专利的发明人

上一篇：重现装置的制作方法
上一篇：语音标记方法、系统及基于语音标记的语音识别方法和系统的制作方法