语音信号处理的制作方法

文档序号:2823270阅读:268来源:国知局
专利名称:语音信号处理的制作方法
技术领域
本发明涉及语音信号处理,例如语音编码或语音增强。
背景技术
语音的处理已经变得日益重要并且例如语音信号的先进编码和增强已经变得普遍。典型地,来自讲话者的声学语音信号被捕获并被转换到数字域,其中可应用先进的算法来处理该信号。例如,可将先进的语音编码或语音清晰度增强技术应用于所捕获的信号。然而,许多这样的常规处理算法的问题在于,它们并非在所有情况下都趋于最优。 例如,在许多情况下,所捕获的麦克风信号可能是扬声器产生的实际语音的次优的表示。例如这可能由于声学路径中或麦克风捕获时的失真而发生。这样的失真可以潜在地降低被捕获的语音信号的保真度。作为特定实例,可以修改语音信号的频率响应。作为另一实例,声学环境可包括大量的噪声或干扰,其导致被捕获的信号不仅仅表示语音信号,还是组合的语音和噪声/干扰信号。这样的噪声可以显著影响所得到的语音信号的处理,并且可以显著降低所生成的语音信号的质量和清晰度。例如,语音增强的传统方法在很大程度上基于将声学信号处理技术应用于输入语音信号以便改进期望的信噪比(SNR)。然而,这样的方法基本上受限于SNR和操作环境条件,因此不可能总是提供好的性能。在其它领域,已提出在靠近颂以下的喉和舌下区域的区域中测量表示讲话者发声系统的运动的信号。已经提出,这种对讲话者的发声系统的要素的测量结果可以被转换成语音,并且因此可以被用来为语音障碍的人生成语音信号,从而允许它们使用语音来交流。 这些方法是基于如下基本原理这样的信号在人类语音系统的各子系统中产生,之后在包括嘴、唇、舌和鼻腔的最终子系统中最终转换成声学信号。然而,该方法在其功效方面是有限的,并且不能单独地完美再现语音。在美国专利US57^694中,已提出将电磁波导向发音器官,如讲话者的喉。传感器随后检测由发音器官散射的电磁辐射,并且该信号与同时记录的声学语音信息一起用于执行对声学语音的完整数学编码。然而,所描述的方法实现起来趋于复杂和麻烦,并且要求不实用的和典型地昂贵的设备来测量电磁信号。此外,电磁信号的测量趋于相对不精确,并且因此所得到的语音编码趋于次优,特别地所得到的编码的语音质量趋于次优。因此,改进的语音信号处理将是有利的,并且特别地,允许灵活性增加、复杂性降低、用户便利性增加、质量改进、成本降低和/或性能改进的系统将是有利的。

发明内容
因此,本发明设法优选地单独地或以任意组合方式缓解、减轻或消除上述缺点中的一个或多个。
按照本发明的一方面,提供一种语音信号处理系统,其包括第一装置,用于提供表示讲话者的声学语音信号的第一信号;第二装置,用于提供表示与所述声学语音信号同时被捕获的讲话者的肌电信号的第二信号;以及处理装置,用于响应于第二信号处理第一信号以生成修改的语音信号。本发明可以提供改进的语音处理系统。特别地,无声(sub vocal)信号可以用来增强语音处理同时保持低的复杂性和/或成本。此外,在许多实施例中,对用户而言可以减少不便。肌电信号的使用可以提供不可方便地用于其它类型的无声信号的信息。例如,肌电信号可以允许语音相关的数据在讲话实际开始之前被检测到。在许多情况下,本发明可以提供改进的语音质量,并且可以另外地或可替换地降低成本和/或复杂性和/或资源要求。第一和第二信号可以同步或可以不同步(例如一个可以相对于另一个被延迟),但是可以表示同时的声学语音信号和肌电信号。特别地,第一信号可以表示第一时间间隔内的声学语音信号,而第二信号可以表示第二时间间隔内的肌电信号,其中第一时间间隔和第二时间间隔是重叠的时间间隔。第一信号和第二信号可以特别地提供在至少一个时间间隔内来自讲话者的相同语音的信息。按照本发明的可选特征,语音信号处理系统还包括肌电传感器,其被设置成响应于对讲话者皮肤表面传导性的测量生成肌电信号。这可以提供肌电信号的确定,其提供高质量的第二信号同时为用户提供友好的且侵扰程度较低的传感器操作。按照本发明的可选特征,处理装置被设置成响应于第二信号执行语音活动检测, 并且该处理装置被设置成响应于所述语音活动检测来修改第一信号的处理。在许多实施例中,这可以提供改进的和/或便利的语音操作。特别地,在许多情况下,它可以例如在噪声环境中允许改进的检测和与语音活动相关的处理。作为另一实例,它可以允许在多个讲话者正在同时讲话的环境中针对单个讲话者的语音检测。语音活动检测可以例如是语音是否存在的简单二元检测。按照本发明的可选特征,语音活动检测是预先的语音活动检测。在许多实施例中,这可以提供改进的和/或便利的语音操作。事实上,该方法可以允许语音活动在讲话实际开始之前被检测到,从而允许自适应运算的预先初始化和更快的收敛。按照本发明的可选特征,所述处理包括第一信号的自适应处理,并且处理装置被设置成仅在语音活动检测满足标准时调适所述自适应处理。本发明可以允许自适应语音处理的改进的调适,并且可以特别地允许基于对何时应执行调适的改进的检测的改进的调适。特别地,一些自适应处理仅在存在语音时被有利地调适,而其它自适应处理仅在不存在语音时被有利地调适。因此,在许多情形中,可以通过选择何时基于肌电信号来调适所述自适应处理来实现改进的调适以及进而实现所得到的语音处理和质量。例如对于某些应用,所述标准可能需要检测语音活动,而对于其它应用,可能不需要检测语音活动。按照本发明的可选特征,所述自适应处理包括自适应音频波束形成处理。
在某些实施例中,本发明可以提供改进的音频波束形成。特别地,可以实现更精确的调适和波束形成跟踪。例如,所述调适可以更集中在用户正在讲话的时间间隔上。按照本发明的可选特征,所述自适应处理包括自适应噪声补偿处理。在某些实施例中,本发明可以提供改进的噪声补偿处理。特别地,可以例如通过改进的将噪声补偿调适集中在用户未讲话的时间间隔上,实现噪声补偿的更精确的调适。噪声补偿处理例如可以是噪声抑制处理或干扰消除/减少处理。按照本发明的可选特征,所述处理装置被设置成响应于第二信号确定语音特性, 以及响应于所述语音特性修改第一信号的处理。在许多实施例中,这可以提供改进的语音处理。在许多实施例中,它可以提供语音处理对于语音的特定属性的改进的调适。此外,在许多情况下,肌电信号可以允许在接收到语音信号之前对语音处理进行调适。按照本发明的可选特征,语音特性是一种浊音化(voicing)特性,并且第一信号的处理取决于浊音化特性所指示的当前的浊音化程度而变化。这可以允许对语音处理特别有利的调适。特别地,与不同音素相关联的特性可以显著变化(例如浊音(voiced)信号和清音(unvoiced)信号),因此基于肌电信号的发声特性的改进的检测可以导致充分改进的语音处理及所得到的语音质量。按照本发明的可选特征,所修改的语音信号是编码的语音信号,并且所述处理装置被设置成响应于语音特性而选择用于编码第一信号的一组编码参数。这可以允许改进语音信号的改进的编码。例如,所述编码可以被调适以反映语音信号主要是正弦信号还是类似噪声的信号,从而允许编码被调适以反映该特性。按照本发明的可选特征,所修改的语音信号是编码的语音信号,第一信号的处理包括第一信号的语音编码。在某些实施例中,本发明可以提供改进的语音编码。按照本发明的可选特征,所述系统包括包含第一和第二装置的第一设备;以及远离第一设备并包括处理设备的第二设备,并且第一设备还包括用于将第一信号和第二信号传递给第二设备的装置。在许多实施例中,这可以提供改进的语音信号分布和处理。特别地,它可以允许利用各个讲话者的肌电信号的优点,同时允许分布式和/或集中式处理所需的功能。按照本发明的可选特征,第二设备还包括用于将语音信号通过仅语音通信连接传送给第三设备的装置。在许多实施例中,这可以提供改进的语音信号分布和处理。特别地,它可以允许利用各个讲话者的肌电信号的优点,同时允许分布式和/或集中式处理所需的功能。此外,它可以允许在无需端到端的数据通信的情况下提供所述优点。所述特征可以特别地提供对于许多现有通信系统(包括例如移动或固定网络电话系统)的改进的向后兼容性。按照本发明的一方面,提供一种针对语音信号处理系统的操作方法,该方法包括 提供表示讲话者的声学语音信号的第一信号;提供表示与所述声学语音信号同时被捕获的讲话者的肌电信号的第二信号;以及响应于第二信号而处理第一信号以便生成修改的语音信号。按照本发明的一方面,提供一种能够执行上述方法的计算机程序产品。
根据以下描述的实施例,本发明的这些以及其它方面、特征和优点将是清楚明白的,并且参考这些实施例而被阐明。


将参考附图以实例的方式描述本发明的实施例,在附图中 图1图示了按照本发明某些实施例的语音信号处理系统的实例; 图2图示了按照本发明某些实施例的语音信号处理系统的实例;
图3图示了按照本发明某些实施例的语音信号处理系统的实例;以及图4图示了包括按照本发明某些实施例的语音信号处理系统的通信系统的实例。
具体实施例方式图1图示了按照本发明某些实施例的语音信号处理系统的实例。语音信号处理系统包括记录元件,特别地该记录元件是麦克风101。麦克风101靠近讲话者的嘴放置,并捕获讲话者的声学语音信号。麦克风101被耦合到可以处理音频信号的音频处理器103。例如,音频处理器103可以包括用于例如过滤、放大信号以及将信号从模拟域转换到数字域的功能。音频处理器103被耦合到被设置成执行语音处理的语音处理器105。因此,音频处理器103向语音处理器105提供表示被捕获的声学语音信号的信号,该语音处理器105随后继续处理该信号以生成修改的语音信号。该修改的语音信号例如可以是噪声补偿的、波束形成的、语音增强的和/或编码的语音信号。所述系统还包括肌电(EMG)传感器107,其能够捕获讲话者的肌电信号。表示讲话者的一块或多块肌肉的电活动的肌电信号被捕获。特别地,EMG传感器107可以测量反映当肌肉细胞收缩时还有当这些细胞休息时由其生成的电位的信号。电源典型地为大约70mV的肌肉膜电位。取决于观测中的肌肉,测量的EMG电位范围典型地在小于50 μ V和高达20 - 30mV之间。休息的肌肉组织通常是电学上不具活性的。然而,当肌肉自发地收缩时,动作电位开始出现。随着肌肉收缩的力度增加,越来越多的肌肉纤维产生动作电位。当肌肉完全收缩时,应出现速率和幅度变化的动作电位的无序组(完全的募集(recruitment)和干扰模式)。 在图1的系统中,电位中的这种变化被EMG传感器107检测并被馈送至EMG处理器109,该 EMG处理器109继续处理所接收的EMG信号。在特定实例中,电位的测量通过皮肤表面传导性测量来执行。特别地,电极可以在有助于人语音生成的喉和其它部位周围的区域被附接到讲话者。在某些情况下,皮肤传导性检测方法可以降低所测量的EMG信号的精度,但是发明人已经意识到这对于许多仅部分地依赖于EMG信号的语音应用(例如与医学应用对照)通常是可接受的。表面测量的使用可以减少对用户的不便,并且特别地可以允许用户自由移动。在其它实施例中,可以使用更精确的侵入式测量来捕获EMG信号。例如,可以将针状物插入肌肉组织,并且可以测量电位。EMG处理器109特别地可以放大、过滤EMG信号以及将EMG信号从模拟域转换到数字域。
EMG处理器109还被耦合到语音处理器105,并向其提供表示所捕获的EMG信号的信号。在该系统中,语音处理器105被布置成取决于由EMG处理器109提供的并表示所测量的EMG信号的第二信号来处理第一信号(对应于声学信号)。因此,在该系统中,肌电信号和声学信号同时被捕获,即,使得它们至少在一时间间隔内与讲话者生成的相同语音有关。因此,第一和第二信号反映与相同语音有关的对应的声学信号和肌电信号。因此,语音处理器105的处理可以将第一信号和第二信号这两者所提供的信息一起进行考虑。然而,应理解,第一和第二信号不需要同步,以及例如关于用户生成的语音,一个信号可以相对于另一信号而延迟。两个路径的这种延迟差例如可以发生在声学域、模拟域和/或数字域。为了简短和简明,在下文中表示所捕获的音频信号的信号可以被称为音频信号, 并且在文中表示所捕获的肌电信号的信号可以被称为肌电(或EMG)信号。因此,在图1的系统中,如在传统系统中,利用麦克风101捕获声学信号。此外,非声学无声EMG信号利用例如放置在靠近喉的皮肤上的适当传感器来捕获。这两个信号随后都被用于生成语音信号。特别地,这两个信号可以组合以产生增强的语音信号。例如,讲话人在噪声环境中可以视图与仅对语音内容感兴趣而不对整体音频环境感兴趣的另一用户通信。在这样的实例中,倾听的用户可以携带执行语音增强以生成更清晰的语音信号的个人声音设备。在该实例中,讲话者口头交流(说出语音)并且另外穿戴着能够检测EMG信号的皮肤传导性传感器,该EMG信号包含预期要讲的内容的信息。在该实例中,所检测的EMG信号从讲话者传递给接收者的个人声音设备(例如使用无线传输),而声学语音信号被个人声音设备自身的麦克风捕获。因此,该个人声音设备接收被周围环境噪声破坏的且由于讲话者和麦克风之间的声学信道导致的回响等引起的失真的声学信号。另外,指示语音的无声EMG信号被接收。然而,该EMG信号未受到声学环境的影响,并且特别地未受到声学噪声和/或声传递函数的影响。因此,语音增强过程可以利用取决于EMG信号的处理而应用到声学信号。例如,所述处理可以试图通过对声学信号和EMG信号进行组合处理来生成声学信号的语音部分的增强估计。应理解,在不同实施例中,可以应用不同的语音处理。在某些实施例中,声学信号的处理是响应于EMG信号而被调适的自适应处理。特别地,何时应用自适应处理的调适可以基于以EMG信号为基础的语音活动检测。图2中图示了这种自适应语音信号处理系统的实例。在实例中,自适应语音信号处理系统包括多个麦克风,其中的两个201、203被图示。麦克风201、203被耦合到可以对麦克风信号进行放大、过滤和数字化的音频处理器 205。数字化声学信号随后被馈送至波束形成器207,其被设置用于执行音频波束形成。 因此,波束形成器207可以组合来自麦克风阵列的各个麦克风201、203的信号,从而获得总体的音频方向性。特别地,波束形成器207可以设法生成主音频波束并将其导向讲话者。应理解,许多不同的音频波束形成算法对于技术人员而言将是已知的,并且可以使用任何适当的波束赋形算法而不有损于本发明。适当的波束形成算法的实例例如在美国专利US6774934中进行了公开。在实例中,来自麦克风的每个音频信号被过滤(或者通过复值进行简单加权),使得从讲话者到不同麦克风201、203的音频信号相干地相加。波束形成器207跟踪讲话者相对于麦克风阵列201、203的移动,从而调适应用于各信号的过滤器(权重)。在该系统中,波束形成器207的调适操作由耦合到波束形成器207的波束形成调适处理器209来控制。波束形成器211提供单个输出信号,其对应于来自不同麦克风201、203(在波束形成过滤/加权之后)的组合信号。因此,波束形成器207的输出对应于将由定向麦克风接收的输出,并且因为音频波束被导向讲话者,所以将典型地提供改进的语音信号。在实例中,波束形成器207被耦合到干扰消除处理器211,其被设置成执行噪声补偿处理。特别地,干扰消除处理器211实现自适应干扰消除处理,该处理设法检测音频信号中的显著干扰并清除这些干扰。例如,可以检测到与语音信号无关的强正弦信号的存在并对其进行补偿。将理解到,许多不同的音频噪声补偿算法对于技术人员而言将是已知的,并且可以使用任意适当算法而不有损于本发明。适当的干扰消除算法的实例例如在美国专利 US5740256 中公开。因此,干扰消除处理器211针对当前信号的特性来调适所述处理和噪声补偿。干扰消除处理器211还被耦合到控制由干扰消除处理器211执行的干扰消除处理的调适的消除调适处理器213。将理解到,尽管图2的系统使用波束形成和干扰消除这两者来改进语音质量,但是其每种处理可以独立于另一种处理来使用,并且语音增强系统经常可以仅使用这两种处理中的一种。图2的系统还包括耦合到EMG传感器217 (其可对应于图1的EMG传感器107)的 EMG处理器215。EMG处理器215被耦合到波束形成调适处理器209和消除调适处理器213, 并且特别地可以在将EMG信号馈送至调适处理器209、213之前对其进行放大、过滤和数字化。在实例中,波束形成调适处理器209对从EMG处理器215接收的EMG信号执行语音活动检测。特别地,波束形成调适处理器209可以执行指示讲话者是否正在讲话的二元语音活动检测。当期望的信号活跃时波束形成器被调适,而当期望的信号不活跃时干扰消除器被调适。可以使用EMG信号以鲁棒的方式执行这种活动检测,因为其只捕获期望的信号而与声学干扰无关。因此,可以使用该信号来执行鲁棒的活动检测。例如,如果被捕获的EMG信号的平均能量高于特定第一阈值,则可检测到期望的信号是活跃的,并且如果低于特定第二阈值则是不活跃的。在该实例中,波束形成调适处理器209仅仅控制波束形成器207,使得波束形成过滤或加权的调适仅仅基于在语音活动检测指示讲话者的确生成语音的时间间隔期间接收到的音频信号。然而,在语音活动检测指示用户没有生成语音的时间间隔期间,关于所述调适音频信号被忽略。该方法可以提供改进的波束形成并且因此在波束形成器207的输出端提供改进的语音信号质量。基于无声EMG信号的语音活动检测的使用可以提供改进的调适,因为这很有可能集中在用户实际讲话的时间间隔上。例如,基于常规音频的语音检测器在噪声环境中趋于提供不精确的结果,因为典型地难以区分语音和其它音频源。此外,可以实现复杂性降低的处理,因为可以利用更简单的声音活动检测。此外,所述调适可以更集中在特定的讲话者,因为语音活动检测专门地基于针对特定期望的讲话者得到的无声信号并且不受该声学环境中其它活跃的讲话者的存在的影响或者不因该存在而降级。将理解到,在某些实施例中,语音活动检测可以基于EMG信号和音频信号二者。例如,基于EMG的语音活动算法可以通过基于常规音频的语音检测来补充。在这种情况下,例如通过要求两种算法必须独立地指示语音活动或者例如通过响应于一个测量来调节用于另一个测量的语音活动阈值,可以组合这两种方法。类似地,消除调适处理器213可以执行语音活动检测并控制由干扰消除处理器 211应用于该信号的处理的调适。特别地,消除调适处理器213可以执行与波束形成调适处理器209相同的声音活动检测,以便产生简单的二元声音活动指示。消除调适处理器213随后可以控制噪声补偿 /干扰消除的调适,使得该调适仅在该语音活动指示满足给定标准时发生。特别地,所述调适可限于没有检测到语音活动的情形。因此,尽管波束形成适于语音信号,但是干扰消除适于在用户没有生成语音时测量的特性,进而适于所捕获的声学信号由音频环境中的噪声主导的情况。该方法可以提供改进的噪声补偿/干扰消除,因为它可以允许改进的噪声和干扰的特性的确定,从而允许更有效的补偿/消除。基于无声EMG信号的语音活动检测的使用可以提供改进的调适,因为这更有可能集中在用户未讲话的时间间隔上,从而降低了可能把语音信号的元素视为噪声/干扰的风险。特别地,可以实现噪声环境中和/或目标是音频环境中多个讲话者中的特定讲话者的更精确的调适。将理解到,在如图2的组合系统中,相同的语音活动检测可以用于波束形成器207 和干扰消除处理器211这两者。语音活动检测可以特别地是预先语音活动检测。事实上,基于EMG的语音活动检测的显著优点在于,它不仅可以允许改进的以及以讲话者为目标的语音活动检测,而且它可以附加地允许预先语音活动检测。事实上,发明人已经意识到通过基于使用EMG信号检测该语音将要开始来调适语音处理,可以实现改进的性能。特别地,语音活动检测可以基于测量恰好在语音产生之前由脑生成的EMG信号。这些信号负责刺激发音器官来实际产生可听的语音信号,并且即使在只打算讲话,但是仅有轻微的或甚至没有产生可听的声音(例如当人自语时)时,这些信号也可以被检测和测量到。因此,将EMG信号用于声音活动检测提供了显著的优点。例如,它可以减小对语音信号进行调适中的延迟,或者可以例如允许语音处理针对语音被预先初始化。在某些实施例中,语音处理可以是语音信号的编码。图3图示了用于编码语音信号的语音信号处理系统的实例。该系统包括麦克风301,其捕获包含将要编码的语音的音频信号。麦克风301被耦合到音频处理器303,该音频处理器303例如可以包括用于对所捕获的音频信号进行放大、 过滤和数字化的功能。音频处理器303被耦合到语音编码器305,该语音编码器305被布置成通过对接收自音频处理器303的音频信号应用语音编码算法来生成编码的语音信号。图3的系统还包括耦合到EMG传感器309 (其可对应于图1的EMG传感器107)的 EMG处理器307。EMG处理器307可以接收EMG信号并继续对其进行放大、过滤和数字化。 EMG处理器307还被耦合到编码控制器311,编码控制器311又被耦合到编码器305。编码控制器311被布置成取决于EMG信号修改编码处理。特别地,编码控制器311包括用于确定与接收自讲话者的声学语音信号有关的语音特性指示的功能。所述语音特性基于EMG信号来确定,随后被用于调适或修改由编码器 305应用的编码处理。在特定实例中,编码控制器311包括用于检测来自EMG信号的语音信号中的浊音化程度的功能。浊语音更具周期性,而清语音更像噪声。现代的语音编码器通常避免将信号硬性分类为浊语音或清语音。替代的是,更恰当的测量是浊音化程度,其还可以根据EMG 信号估计。例如,过零点的数量是信号为浊音还是清音的简单指示。清音信号由于其像噪声的本质而趋于具有更多过零点。由于EMG信号与声学背景噪声无关,浊音/清音检测更具鲁棒性。因此,在图3的系统中,编码控制器311控制编码器305取决于浊音化程度选择编码参数。特别地,语音编码器(如联邦标准MELP (混合激励线性预测)编码器)的参数可以取决于浊音化程度来设置。图4图示了包括分布式语音处理系统的通信系统的实例。该系统可以特别地包括参考图1描述的元件。然而,在该实例中,图1的系统分布在通信系统中,并且通过支持分布的通信功能得到增强。在该系统中,语音源单元401包括参考图1描述的麦克风101、音频处理器103、 EMG传感器107以及EMG处理器109。然而,语音处理器105不位于语音源单元401内,而是位于远处并通过第一通信系统/网络403而连接到语音源单元401。在该实例中,第一通信网络403是数据网络,如因特网。此外,声音源单元401包括第一和第二数据收发器405、407,其能够通过第一通信网络403向语音处理器105 (其包括用于接收数据的数据接收器)传送数据。第一数据收发器405被耦合到音频处理器103,并被设置成向语音处理器105传送表示音频信号的数据。 类似地,第二数据收发器407被耦合到EMG处理器109,并被布置成向语音处理器105传送表示EMG信号的数据。因此,语音处理器105可以基于EMG信号继续执行声学语音信号的语音增强。在图4的实例中,语音处理器105还被耦合到第二通信系统/网络409,该系统/ 网络409仅是声音通信系统。例如,第二通信系统409可以是传统的有线电话系统。该系统还包括耦合到第二通信系统409的远程设备411。语音处理器105还被布置成基于所接收的EMG信号生成增强的语音信号,并使用第二通信系统409的标准声音通信功能将该增强的语音信号传递给远程设备411。因此,该系统可以使用标准化的仅语音通信系统向远程设备409提供增强的语音信号。此外,由于增强处理是集中式执行的,可以针对多个声音源单元使用相同的增强功能,从而允许更有效的和/或复杂性更低的系统解决方案。
将理解到,为了清楚,以上说明已经参考不同功能单元和处理器描述了本发明的实施例。然而,将清楚的是,可以使用在不同的功能单元或处理器之间的任意适当的功能分布而不有损于本发明。例如,图示由单独的处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此,对特定功能单元的引用仅被视为对用于提供所描述的功能的适当装置的引用,而不是指示严格的逻辑或物理结构或组织。本发明可以以包括硬件、软件、固件或其任意组合的任意适当形式来实现。本发明可以可选地至少部分地被实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明实施例的元件和部件可以以任何适当方式物理地、功能地和逻辑地实现。事实上,所述功能可以实现在单个单元中、在多个单元中、或者作为其它功能单元的部分而实现。同样,本发明可以在单个单元中实现或者可以物理地和功能地分布在不同单元和处理器之间。尽管已经结合一些实施例描述了本发明,但是本发明并非企图限于这里所提及的特定形式。相反,本发明的范围仅由所附权利要求书来限定。另外,尽管特征可能看似结合特定实施例进行描述,但是本领域技术人员应认识到所描述的实施例的各种特征可以按照本发明进行组合。在权利要求中,词语包括不排除其它元件或步骤的存在。此外,尽管单独被列出,但是多个装置、元件或方法步骤可以由例如单个单元或处理器来实现。另外,尽管各个特征可以包括在不同的权利要求中,但是这些特征可能可以被有利地组合,并且包含在不同的权利要求中不意味着特征的组合不是可行的和/或有利的。同样,特征包含在一类权利要求中并不意味着限于该类别,而是表示适当时该特征可同样适用于其它权利要求类别。此外,权利要求中特征的次序不意味着特征必须按照其操作的任何特定次序,并且特别地,方法权利要求中各个步骤的顺序并不意味着所述步骤必须以该顺序来执行。相反,所述步骤可以以任何适当的顺序来执行。另外,单数引用不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅仅被提供作为澄清性实例,而不应理解为以任何方式限制权利要求的范围。
权利要求
1.一种语音信号处理系统,包括第一装置(103),用于提供表示讲话者的声学语音信号的第一信号;第二装置(109),用于提供表示与所述声学语音信号同时被捕获的讲话者的肌电信号的第二信号;以及处理装置(105),用于响应于第二信号处理第一信号以生成修改的语音信号。
2.如权利要求1所述的语音信号处理系统,还包括被设置成响应于讲话者皮肤表面传导性的测量来生成肌电信号的肌电传感器(107)。
3.如权利要求1所述的语音信号处理系统,其中所述处理装置(105,209,213)被设置成响应于第二信号执行语音活动检测,并且该处理装置(105,207,211)被设置成响应于所述语音活动检测来修改第一信号的处理。
4.如权利要求3所述的语音信号处理系统,其中所述语音活动检测为预先语音活动检测。
5.如权利要求3所述的语音信号处理系统,其中所述处理包括第一信号的自适应处理,并且处理装置(105,207,209,211,213)被设置成仅在语音活动检测满足标准时调适所述自适应处理。
6.如权利要求5所述的语音信号处理系统,其中所述自适应处理包括自适应音频波束形成处理。
7.如权利要求5所述的语音信号处理系统,其中自适应处理包括自适应噪声补偿处理。
8.如权利要求1所述的语音信号处理系统,其中所述处理装置(105,311)被设置成响应于第二信号来确定语音特性,以及响应于所述语音特性来修改第一信号的处理。
9.如权利要求8所述的语音信号处理系统,其中语音特性是一种浊音化特性,并且第一信号的处理取决于该浊音化特性所指示的当前的浊音化程度而变化。
10.如权利要求8所述的语音信号处理系统,其中所修改的语音信号是编码的语音信号,并且所述处理装置(105,311)被设置成响应于语音特性而选择用于编码第一信号的一组编码参数。
11.如权利要求1所述的语音信号处理系统,其中所修改的语音信号是编码的语音信号,并且第一信号的处理包括第一信号的语音编码。
12.如权利要求1所述的语音信号处理系统,其中所述系统包括包含第一装置和第二装置(103,109)的第一设备(401 )、以及远离第一设备并包含处理设备(105)的第二设备, 并且其中第一设备(401)还包括用于将第一信号和第二信号传递给第二设备的装置(405, 407)。
13.如权利要求12所述的语音信号处理系统,其中第二设备还包括用于将语音信号通过仅语音的通信连接传送给第三设备(411)的装置。
14.一种针对语音信号处理系统的操作方法,所述方法包括提供表示讲话者的声学语音信号的第一信号;提供表示与所述声学语音信号同时被捕获的讲话者的肌电信号的第二信号,以及响应于第二信号处理第一信号以便生成修改的语音信号。
15.一种计算机程序产品,其能够执行按照权利要求14的方法。
全文摘要
一种语音信号处理系统,包括用于提供表示讲话者的声学语音信号的第一信号的音频处理器(103)。EMG处理器(109)提供表示与声学语音信号同时被捕获的讲话者的肌电信号的第二信号。语音处理器(105)被布置成响应于第二信号处理第一信号以生成修改的语音信号。所述处理例如可以是波束形成、噪声补偿、或者语音编码。可以实现特别地在声学噪声环境中的改进的语音处理。
文档编号G10L11/02GK102257561SQ200980150675
公开日2011年11月23日 申请日期2009年12月10日 优先权日2008年12月16日
发明者V. 潘达里彭德 A., 斯里尼瓦桑 S. 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1