用于增强对语音进行三维定位的方法

文档序号：2820730阅读：239来源：国知局

专利名称：用于增强对语音进行三维定位的方法
1、本发明的领域本发明涉及语音处理。具体地说，本发明涉及到用于增强对语音进行三维定位的方法和设备。
2、对相关技术的说明正常的人类语音包含多种频率成份通常从约100Hz(赫兹)到几KHz(千赫)。例如，人类语音具有低频基频，但人类语音的谐音则具有相当广的范围。由于人类语音中有多种频率，故一个人在与另一个人讲话时可确定声源的位置。换句话说，一个人通常能个性化地确定声源的位置并识别该声源。
为了确定语音的可理解性或信息，收听者并不需要包含在语音中的较高频率的成份。所以，诸如蜂窝式电话、视频电话以及使用语音压缩算法的电话系统之类的多种通讯系统均摒弃了声源中的高频信息。因此，摒弃了大部分4千赫(KHz)以上的高频内容。在不需要确定语音的位置时，这一方案是适用的。但是，对要确定语言的位置的应用(例如虚拟现实)来说，业已证明，缺少语音的高频成份是不利的。这是因为，为了进行语音定位，收听者需要较高的频率。语音中高频内容有助于收听者在精神上感觉出声音位于什么地方。例如，高频内容有助于收听者确定声音位于自己的上方还是下方、或者是位于右方还是左方、或位于前方还是后方。因此，所需要的是一种对业已通过摒弃了高频内容的通讯系统来加以传输的语音进行转换的方法。这种方法应能在不损失语音的可理解性的情况下使收听者确定出经过转换的语音的位置。
发明概述公开了一种由计算机实现的用于增强对语音进行3-D(三维)定位的方法。接收业已按每秒预定速率进行了取样的语音信号。确定所述语音信号的最大频率。提高前述预定的取样率。给所述语音信号加上低电平、宽带噪音以形成一具有较高频率成份的新语音信号。
对附图的简要说明在附图中，用举例但非限制性的方式说明了本发明，附图中相同的标号表示相似的部分。

图1说明了可实施本发明的示例性计算机；图2是说明本发明一个实施例的流程图；图3说明了一个可在本发明中使用的硬件实施例。
详细说明以下描述用于增强对语音进行3-D(三维)定位的方法和设备。在以下的说明中，说明了多种具体细节以便于对本发明作详尽的理解。但是，本技术领域的人士将会看到，在没有这些细节的情况下也可以实施本发明。在其它情况下，以框图中的形式示出了周知的结构和设备，以防使本发明难以理解。
本发明通过将高频内容加给语音而增强语音的3-D定位。需要语音的高频内容是因为在传输过程中语音压缩算法通常都要除掉语音的高频内容(例如高于4KHz)。结果，会丢失语音中可用作空间定位线索的高频成份。因此，经压缩和局部化的语音的收听者不能精确地感觉出声源的位置。所以，本发明通过在提高取样率之后并在进行定位之前给压缩后的语音增加高频宽带噪音来解决这一问题。
参照图1，标号100示出可实施本发明实施例的示例性计算机系统。计算机系统100包括一总线或传递信息的其它通讯设备101；以及，一处理信息的处理器102，它连接于总线101。系统100还包括与总线101相连的随机存储存储器(RAM)或其它动态存储设备104(称为主存储器)，它存储着信息以及要由处理器102来执行的指令。在处理器102执行指令过程中，主存储器还可用于存储临时变量或其它中间信息。
计算机系统100还包括一与总线101相连的只读存储器(ROM)和/或其它静态存设备106，它存储有静态信息和用于处理器102的指令。数据存储设备107与总线101相连并存储有信息和指令。诸如磁盘或光盘之类的数据存储设备107及其相应的盘驱动器与可计算机系统100相连。网络接口103与总线101相连。网络接口103可使计算机系统100与计算机系统网络(未示出)连接起来。
计算机系统100还可通过总线101与诸如阴极射线管(CRT)之类用来向计算机用户显示信息的显示设备101相连。一包括其它按键上的字符在内的字符输入设备122通常与总线101相连，以便向处理器102传递信息和命令选择。另一种类型的用户输入设备是诸如时标、跟踪球、光标方向按键之类用于向处理器102传递方向信息和命令选择并用于控制光标在显示器121上移动的光标控制器123。这种输入设备一般具有两种自由度和两种入口即第一入口(例如X轴)和第二入口(例如Y轴)，它们使得该输入设备能够指定平面中的位置。
另外，可以用诸如指示笔或输入笔之类的其它输入设备与显示器互动。可用指示笔或输入笔来接触所显示的对象从而选定显示在计算机屏幕上的对象。所述计算机通过使用触敏屏幕来检测选择。例如，一个系该也可以缺乏诸如标号122之类的键盘，可通过指示笔来将所有的接口提供为一(类似输入笔的)书写装置，并用光学字符识别(OCR)技术来解释写出的文本。此外，压缩后的语音信号也可以通过诸如因特网或局域网(LAN)连接之类的通讯信道到达计算机。
图2说明了本发明的一个实施例。在步骤200中，从通讯网络中接收一数字语音源(信号)。例如，可能的数字语音源是蜂窝电话、视频电话以及视频远程会议。在这些系统中，通常摒弃了语音中的高频内容(例如大于4KHz)。这是因为，就语音的可理解性而言，不需要语音的高频成份。此外，语音压缩算法也摒弃了语音的高频成份。
在步骤202中，对接收到的数字语音的频率内容进行分析。在步骤204中，根据接收到的信号的取样率按着尼奎斯特(Nyquist)法则计算出数字语音信号的最大频率。换句话说，假定信号的取样率是所传输的信号的最大频率的两倍。例如，如果，数字语音源的取样率是8千赫兹(KHz)，那么，最大频率就等于(8KHz)的一半，为4KHz。因此，所传输的信号的最大频率为4000赫兹。
这里，已经(例如通过语音压缩算法)除掉了语音的高频内容，从而，不可能通过空间线索用语音的高频内容来提供方向特性。必须将较多的高频信息加到语音上以便增强3-D定位。这一点是通过首先按较高的速率对语音进行重新取样而实现的。在步骤208中，将取样率(例如8KHZ)增加到通常是原有取样率的二至六倍。在一个实施例中，可将取样率从8KHz增加到16KHz至48KHz的值。在一个实施例中，可将取样率从每秒8000次增加到每秒22050次(约22KHz)。每秒22050次的取样率对中音域的音乐来说是标准的取样率并与FM(调频)无线广播的质量相类似。例如，人可在22KHz听到更为自然的语音；人还能听出乐器和声音效果的音质。因此，虽然提高了取样率，但没有增加额外的高频成份。
在步骤210中，向具有提高了的取样率的语音信号增加宽带高斯噪音。一般地说，所增加的宽带高斯噪音具有与提高后的取样率相对应的尼奎斯特(Nyquist)频率。例如，如果将取样率增加至22KHz或每秒22050次，那么，所述宽带高斯噪音还会有11025赫兹或提高后的取样率一半的频带。应该注意，所述高斯噪音可具有不同于提高后的取样率的频率。还应该注意，所述宽带高斯噪音可具有与提高后的取样率成比例的频率。在一个实施例中，所增加的宽带高斯噪音在约8KHz至约24KHz之间。该宽带高斯噪音的能量通常非常低，因此，不会影响语音的可理解性。结果，所增加的宽带高斯噪音约比开始时接收到的数字语音信号低20至30分贝。
所述宽带高斯噪音将高频成份增加给了原始的数字语音源。这一点对增强声源的3-D定位来说很重要，所说的定位例如可用一滤波器来进行以便为收听者重新形成有虚拟现实感受的语音源。在一个实施例中，于步骤212中将合成的宽带语音传输给计算机系统内的3-D语音定位例程。此外，这时还可增加与所述数字语音源有关的位置信息。
与语音源相对应的位置信息可形成更为实际的虚拟感受。例如，如果一个人正在出席有五个不同的人的多点视频会议，每个人的图像均可在计算机屏幕上看到，那么，所说的位置信息就可将语音与显示屏上的适当人的图像联系起来。例如，如果图像显示上屏幕左侧的人正在讲话，那么，语音源就应该听起来是来自屏幕的左侧。收听者不应感觉到语音是来自图像被显示在屏幕右侧的那个人。
本发明的另一应用是应用于3-D虚拟现实场景。例如，一个人正处于共享的虚拟空间或3-D空间内，在这种空间中，与每个人的3-D图像会面和交谈。如果某个人的3-D图像正以能听得见的方式讲话而不是以文本的方式说话，那么，本发明就能使语音的接收者将该语音作为语音源与适当的3-D图像联系起来。因此，如果用户从一组讲话人走到另一组讲话人，则该用户接收到的语音应因此而发生变化。
图3中示出了本发明的一个硬件实施例300。接收器303接收一数字语音信号301。数字语音信号301是从诸如蜂窝电话之类的通讯网络上发送来的。通常，人的语音首先被接收为模拟信号，然后被转换为数字语音信号。通常在数字语音信号301到达接收器303之前对该信号进行压缩和频带限制。因此，通常会去掉数字语音信号301的高频成份(例如大于4KHZ的成份)。
接收器303还确定所接收到的数字语音信号的最大频率。在一个实施例中，接收器303利用尼奎斯特(Nyquist)法则根据数字取样率来确定数字语音信号的最大频率。例如，如果取样率为6KHz，则依照尼奎斯特(Nyquist)法则的最大频率是3KHz，该值是取样率的一半。然后，转换器305将上述最小取样率转换成或提高至一提高后的取样率。在一个实施例中，提高后的取样率可比先前的取样率大二至六倍。
此后，一发生器307形成宽带高斯噪音以增加接收到的数字语音信号301的高频内容。这是必需的，因为，语音的高频内容能使收听者更好地确定数字语音的位置。换句话说，在进行了3-D定位之后，语音的高频内容可使收听者确定语音源是位于收听者的左侧还是右侧，是位于收听者的上方还是下方，是位于收听者的前方还是后方。对语音的3-D定位可增强收听者对语音的感受。在加法器309中将具有提高后的取样率的语音信号与宽带高斯噪音合成起来。然后，在一个实施例中，在传输给滤波器生成装置313之前将合成的宽带语音信号存储到存储器311内。在一个实施例中，所述滤波器可以是有限脉冲响应(FIR)滤波器。应该注意，也可以使用其它的滤波器。在先有技术中，通常将没有高频内容(例如4KHz以上)的数字语音信号301直接传输给滤波器生成装置313。结果，这种合成的数字语音通常缺乏可以感觉到的3-D定位线索。而明显相反，本发明则能使收听者有提高了的对语音源的3-D定位能力或感知能力。因此，收听者可以有对语音源的更为真实的感受。
在以上的说明中，给出了若干特定细节来说明本发明，但并非用来限制本发明。本领域的普通技术人员可以在没有这些细节的情况下也能实施本发明。此外，未详细说明特定的语音处理设备和算法，以便不使得本发明难于理解。因此，本发明的方法和设备是由后附权利要求所限定的。
所以，说明了用于增强对语音源进行3-D定位的方法。
权利要求
1.一种由计算机实现的用来增强对语音源进行3-D定位的方法，该方法包括接收一业已按预定取样率进行取样的语音信号；确定上述语音信号的最大频率；提高对上述语音信号的取样率；以及给上述语音信号增加一低电平、宽带噪音以形成一具有较高频率成份的新语音信号。
2.如权利要求1的方法，其特征在于，该方法还包括下列步骤传送上述新语音信号。
3.如权利要求1的方法，其特征在于，提高后的取样率至少是前述最大频率的两倍。
4.如权利要求3的方法，其特征在于，将所述取样率增加到二至六倍。
5.如权利要求1的方法，其特征在于，所述低电平、宽带噪音具有约为提高后的取样率一半的频率。
6.如权利要求1的方法，其特征在于，所述低电平、宽带噪音比前述语音信号低约20至30分贝。
7.如权利要求1的方法，其特征在于，所述低电平、宽带噪音具有约8KHz至约24KHz范围内的频率。
8.一种计算机可读介质，其上存储有指令序列，该指令序列包括在被处理器执行时可使该处理器执行下列步骤的指令接收一数字语音信号；确定上述数字语音信号中出现的最大频率；确定上述数字语音信号的取样率；将上述数字语音信号的取样率提高至一提高后的取样率；给上述语音信号增加一低电平、宽带噪音以形成一具有较高频率的宽带数字语音信号；以及传送上述宽带数字语音信号。
9.如权利要求8的计算机可读介质，其特征在于，还包括下列步骤提供用于所述宽带语音信号的位置信息。
10.如权利要求8的计算机可读介质，其特征在于，所述最大频率约为4千赫兹(KHZ)。
11.如权利要求10的计算机可读介质，其特征在于，所述提高后的取样率约在16至48KHz之间。
12.如权利要求8的计算机可读介质，其特征在于，所述宽带高斯噪音具有与前述提高后的取样率成比例的频率。
13.如权利要求8的计算机可读介质，其特征在于，所述宽带高斯噪音具有约8KHz至约24KHz范围内的频率。
14.如权利要求8的计算机可读介质，其特征在于，所述宽带高斯噪音比前述数字语音信号低约20至30分贝。
15.一种用于增强对语音进行3D定位的可编程设备，该设备包括一接收器，用于接收一语音信号；一连接于上述接收器的转换器，用于将所述语音信号取样率提高至一提高后的取样率；一发生器，用于产生宽带噪音；一连接于上述转换器和发生器的加法器，它用于将上述宽带噪音与具有提高后的取样率的语音信号合成起来，以形成一宽带语音信号；以及一连接于上述加法器的存储器，该存储器中存储着上述宽带语音信号。
16.如权利要求15的可编程设备，其特征在于，该设备还包括一连接于上述存储器的滤波器，它用于确定前述宽带语音信号的位置。
17.如权利要求15的可编程设备，其特征在于，所述语音信号是数字化的并具有约4KHz的频率。
18.如权利要求15的可编程设备，其特征在于，所述语音信号具有小于4KHZ的频率。
19.如权利要求15的可编程设备，其特征在于，所述转换器确定前述语音信号的最大频率然后将该语音信号的取样率提高到是上述最大频率的二至六倍。
20.如权利要求19的可编程设备，其特征在于，所述宽带噪音具有约为提高后的取样率的一半的带宽。
21.如权利要求15的可编程设备，其特征在于，所述宽带噪音比前述语音信号低约20至30分贝。
22.如权利要求21的可编程设备，其特征在于，所述宽带噪音具有一定的频率，该频率不同于前述提高后的取样率的频率。
全文摘要
一种存储着要由一处理器来执行的指今序列的计算机可读介质。这些指令可使上述处理器执行下列步骤以增强对语音源进行3－D定位。接收一数字语音信号(200)。确定所述数字语音信号的最大频率(202)。提高对所述数字语音信号的取样率(208)。然后,给所述数字语音信号加上宽带高斯噪音(210),以形成具有较高频率的宽带数字语音信号。最后,可用有限冲激响应滤波器来确定上述宽带数字语音信号的位置。
文档编号G10L21/00GK1251195SQ98803591
公开日2000年4月19日申请日期1998年1月6日优先权日1997年3月26日
发明者M·利维申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.利维
技术所有人：英特尔公司
我是此专利的发明人

上一篇：语音分析系统的制作方法
上一篇：具有多个输入源的音频处理设备的制作方法