用于检测语音的系统、设备和方法

文档序号：2825661阅读：179来源：国知局

用于检测语音的系统、设备和方法
【专利摘要】一种移动通信系统，包括：（a）设置有触摸屏的移动通信设备；以及（b）语音活动分析器，适于从所述触摸屏接收指示施加到所述触摸屏的区域的压力和所述压力随着时间的变化的数据。
【专利说明】用于检测语音的系统、设备和方法
【技术领域】
[0001]本发明涉及与诸如蜂窝电话之类的通信设备相关联的触摸屏的新颖用途，并且涉及为这种用途而设计的通信设备。本发明还涉及通过检测语音的发生来操作移动通信设备。
【背景技术】
[0002]移动通信设备在最近十年中已有了实质性的发展，并且这种发展在许多情况下已经导致了诸如PDA之类的便携式计算机与诸如蜂窝或无绳电话之类的电话设备之间的区别的消除。用户能够通过具备VoIP或蜂窝能力的PDA进行通信，几乎就像他们利用蜂窝电话或无绳电话所做的那样。诸如iPhone和Galaxy之类的产品已完全模糊了在不同类型的设备之间进行区分的界线。为了简单起见，在接下来的描述中在许多情况下将会提到“电话”，应当理解该术语涵盖了所有可能的通信设备，包括以上提及的那些。
[0003]电话的广泛使用已使得电话成为了在不同环境中、在非常不同的条件下以及在用户从事各种活动时使用的设备。例如，同一电话可一度在安静的房间中使用，或者在聚会时的嘈杂环境中使用，或者在户外的有风条件下使用。另外，电话在用户从事其他活动并且只有一只空闲的手或者可能没有空闲的手来执行额外的活动(例如按压电话上的实际按钮或虚拟按钮)时被使用。
[0004]一个特别有挑战性的领域涉及识别用户的语音活动，这既是为了改善通信的质量，尤其是在嘈杂环境中，又是为了执行任何其他以用户的语音为条件的活动。
[0005]因此，对于检测通信设备中与用户的语音相关的参数的方法和装置存在需求，这些参数可用来在通信设备内执行其它处理。
[0006]本发明的一个目的是提供一种简单且相对不昂贵的方式来利用设置在通信设备中的触摸屏，以检测与通信设备的用户的语音相关联的参数。
[0007]本发明的另一个目的是提供一种能够检测与用户的语音相关联的参数的通信设备。
[0008]本发明的其他目的和优点将随着描述进行而变得清楚。

【发明内容】

[0009]本发明的移动通信系统包括:
[0010]a)设置有触摸屏的移动通信设备；以及
[0011]b)语音活动分析器，适于从所述触摸屏接收指示施加到所述触摸屏的区域的压力和所述压力随着时间的变化的数据。
[0012]根据本发明的一个实施例，语音活动分析器包括:
[0013]A)群集处理器，用于识别群集；
[0014]B)特征提取器，用于从由所述群集处理器识别的群集中提取参数；
[0015]C)特征分析器，分析所述参数；以及[0016]D)语音活动判决装置元件，适于处理所述参数以判定用户是否在讲话。
[0017]在本发明的一个实施例中，语音活动分析器与移动通信设备是一体的，而根据本发明的另一实施例，语音活动分析器位于远离移动通信设备处并且与移动通信设备通信。语音活动分析器与移动通信设备之间的通信可以以任何适当的方式来执行，并且一般，但不限于，经由W1-Fi或蓝牙、或者通过任何有线或无线手段来执行。
[0018]根据本发明的移动通信设备可以是不同类型的，例如蜂窝电话、无绳电话、PDA等。
[0019]本发明还涉及一种用于判定配备有触摸屏的移动通信设备的用户是否正在对所述移动通信设备讲话的方法，包括:
[0020](i)从触摸屏获得表示由所述触摸屏与用户的脸颊之间的接触产生的网格点的群集的信号；
[0021](ii)分析所述群集的压力相关参数随着时间的动态变化；以及
[0022](iii)根据所述分析判定是否存在语音活动。
[0023]如接下来的描述中将进一步说明的，群集包括像素或像素群组，这些像素或像素群组能够由这些像素或像素群组在所述触摸屏上的坐标来区分。可从用户的脸颊与触摸屏之间的接触得出的参数可以是不同种类的，并且例如是从重心、周长、面积和取向中选择的，或者是所述参数中的两种或更多种的组合。
[0024]本发明还涵盖了利用设置在移动通信设备中的传感器来获得关于设备是否被拿到了用户的耳朵附近的指示的设备和方法。
【专利附图】

【附图说明】
[0025]在附图中:
[0026]-图1示意性示出与本发明相关的典型情形:
[0027]图1A示出用户具有配备有触摸屏的移动电话，该移动电话被定位为靠着用户的脸颊。
[0028]图1B示出示例性的移动电话的正视图。
[0029]-图2示意性示出触摸屏的2维网格表示；
[0030]-图3示出根据本发明的实施例构造并操作的适于语音活动检测(SpeechActivity Detection, SAD)的示例性触摸屏的元件；
[0031]-图4示意性示出SAD分析系统；以及
[0032]-图5示出对从触摸屏获得的数据的分析:
[0033]图5A是由特征分析器执行的时间分析处理的流程图；
[0034]图5B示出由特征提取器提取的参数的输入。
【具体实施方式】
[0035]在以下详细描述中，阐述了许多具体细节以便提供对本发明的透彻理解。然而，本领域技术人员将会理解，没有这些具体细节也可实现本发明。在其他情况下，没有详细描述公知的方法、过程和部件，以便不模糊本发明。
[0036]当一个人利用触摸屏移动电话讲话时，他一般将电话握在他的耳边，并且通常，电话面板的一部分接触其脸颊。申请人:出人意料地发现，可以对由用户脸颊在电话的触摸屏上产生的压力所生成的信号进行分析，以提取可用于从功能上操作电话的参数。在用户讲话时，由脸颊在触摸屏上产生的作为语音活动结果的压力在量值和位置上都发生变化。在最简单的情况下，可从这种压力得出的参数可用来判定用户是否正在讲话，并且在更复杂的情况下，这些参数提供了关于讲话模式的有价值的信息，例如用户是正在缓慢地还是快速地讲话，响度，等等。从而，根据本发明的实施例，触摸屏可用于语音活动检测(SAD)。
[0037]现在参考图1A，图1A示出用户10具有配备有触摸屏的移动电话20，该移动电话20被定位为靠着脸颊30。还参考图1B，图1B示出示例性的移动电话20的正视图，其中示出了被触摸屏40占据的表面区域。对本领域技术人员来说将会清楚的是，虽然任何商业尺寸的触摸屏在触摸屏与讲话人的脸颊接触时都会生成信号，但希望采用更大尺寸的触摸屏，例如iPhone4的触摸屏，虽然本发明并不限于任何特定的尺寸，并且只要该尺寸足以生成可辨别的信号，本发明就可被利用。
[0038]将会明白，当用户10讲话时，脸颊30可与触摸屏40接触并且可对触摸屏40施加压力。实际上，这对大多数用户来说都是自然的定位。在用户10用移动电话20讲话所花费的整个时间期间，靠着触摸屏40的脸颊30的压力和位置可动态变化，并且在任何一个时亥IJ，脸颊30的不同部分可与屏幕40的不同区域接触。在交谈期间也可存在用户10不讲话的时段，因此脸颊30可能静止地靠着屏幕40。
[0039]现在参考图2，图2示出屏幕40的2维网格表示。屏幕40上的单个网格元素41(可以是单个像素，或者取决于像素的大小可以是由多个像素构成的网格元素)可以用“i”和“j”坐标来表示。群集50、60和70示意性地表示在电话交谈期间的某个时刻与屏幕40接触的脸颊30的区域的快照。术语“群集”在这里用来指示在同一时间点被施加压力的多个相邻网格元素。每个单独的群集可包含多于一个像素，覆盖屏幕40的不同表面区域，并且可检测对屏幕40施加的不同压力。还将明白，对任何群集的形状、动态变化和取向的分析可提供可用于分析的不同参数，这将在下文中更详细地描述。以上使用的术语“动态变化”指的是可在给定的时间间隔期间在特定群集中发生的压力的变化，这也可导致群集的形状的变化。
[0040]现在参考图3，图3示出根据本发明的实施例构造并操作的示例性触摸屏SAD100的元件。系统100包括触摸屏40、触摸屏控制器110和应用处理器120。应用处理器120包括语音活动分析器130。触摸屏40受控制器110的控制，控制器110进而又向处理器120提供关于脸颊20对屏幕40施加的压力的信息。然后，处理器120解释在任意时刻η在屏幕40上的每个网格元素(i，j)处的压力P。随后，P(i，j，n)(在时刻η在点(i，j)处的压力)经由处理器120被提供给语音活动分析器130。对本领域技术人员来说将会清楚的是，压力的采样率当然将根据以下各项而有所不同:所采用的触摸屏的类型，必须由与语音相关的参数启动或控制的处理的类型，以及具体应用所要求的精度水平。一个象征性的采样率是在每网格元素50-100HZ的范围中，但取决于预期的用途当然可以使用许多不同的采样率，并且本领域技术人员将在每种情况下决定所希望采用的采样率。本发明不限于任何特定的采样率。
[0041]将会明白，对于一些应用，知道在时刻k每语音频率f的语音活动可能是有用的。因此，来自语音活动分析器130的输出可被表示为PSAD(k，f)。还将会明白，PSAD(k，f)可以被提供为O或I的二进制信号(语音活动=0,没有语音=1)、或者O到I之间的任何值。该值指示在时刻k在频率f将会检测到语音活动的概率。
[0042]不同的方法可用于分析语音活动，并且将参考图4来图示一个这样的方法和系统，图4示意性示出用于分析语音活动的SAD分析系统200。SAD分析系统200可以是语音活动分析器130的一部分，或者可单独提供，并且在此例示性示例中，SAD分析系统200包括群集处理器210、特征提取器220、特征分析器230和SAD判决装置240。
[0043]根据该说明性示例，群集处理器210从触摸屏控制器40 (图3)接收P(i，j, η)，并且如果用户正在讲话，则识别诸如群集40、50和60的群集的存在。群集处理器210可实现用于二维分割和聚类的任何标准分割聚类算法，作为示例，参见http://en.wikipedia.0rg/wiki/Segmentation_(image_processing)。
[0044]将会明白，针对每个群集可分析形状、取向和其他特征。特征提取器220可针对每个群集提取不同参数并且将此信息传递给特征分析器230，特征分析器230随后分析每个参数的时间特性。特征提取器220要提取的示例性参数例如包括群集的重心(CoG)、群集的周长、群集的面积以及群集的取向等。
[0045]现在参考图5A，图5A是根据具体示例由特征分析器230 (图4)对由特征提取器220 (参见图5B)提取的参数执行的时间分析处理的流程图。在时刻η提取的参数的计算值通过带通滤波器300，以确保只有预定范围内的参数被接受。这是要确保不正确的读数不被考虑。例如，如果用户10在没有讲话的时间段期间嚼口香糖，则在触摸屏40上可能仍会检测到某种运动。然而，咀嚼通常是低频率的，从而P(i，j，n)的频率读数可能落在预定阈值以下，因此在计算中可不被考虑。图5A示出根据此具体示例对离开带通滤波器300的数据流301进行的处理。所提取的参数301根据参数301在所选时间段上的变化而被给予得分。例如，特定群集的重心可被监视以查看该重心是否随着时间而不断地变化。这是因为，如果用户10在握住屏幕40靠着他的脸颊的同时没有说话，则虽然屏幕40仍可检测到压力，但特定群集的重心可能不会显著地变化。针对重心参数，并且类似的针对诸如面积和取向之类的其他参数可计算得分320。然后可计算所有参数的最终平均得分330，该最终平均得分330被馈送到SAD分析器240中。SAD分析器240随后做出关于是否有声音活动的最终判决。
[0046]将会明白，本发明的触摸屏SAD100可以在移动电话20的应用处理器中实现，或者在任何专用硬件或通用处理器上实现。例如，通过脸颊在触摸屏上的压力获取的数据例如可经由W1-Fi或蓝牙被传送到远方的处理器，该处理器将会执行分析并做出判决，并且可将此分析的结果经由相同通道或不同通道反馈给电话20。
[0047]将会明白，如果用户10在嘈杂环境中用移动电话20讲话，则移动电话的麦克风可拾取与周围环境噪声相结合的语音信号。如果没有噪声消除技术在工作，则即使在用户10没有讲话时，交谈另一端的人也会听到噪声。存在许多本领域已知的技术用于噪声消除或噪声抑制，并且许多移动电话和耳机使用各种技术来减轻背景环境噪声的影响。这些技术中的大多数要想成功，则知道用户是否正在讲话是重要的。在环境噪声较高的情况下，大多数SAD算法无法提供这方面的可靠判决。
[0048]然而，将会明白，触摸屏SAD100 —般对于环境噪声是不敏感的，因为触摸屏SAD100只检测屏幕上的运动和压力。还将会明白，使用如上所述的触摸屏SAD100，结合任何适当的依赖于关于用户是否正在讲话的信息的噪声消除技术，则即使在非常嘈杂的环境中也可得到高质量的语音呼叫。
[0049]还将明白，移动电话使用语音压缩算法对经由移动信道发送的语音进行压缩。当今使用的更流行的算法之一是自适应多速率(AMR—例如参见http://en.wikipedia.0rg/wiki/Adaptive_Mult1-Rate_audio_codec)0此算法也可充当静默检测器,该检测器可通过分析语音信号来检测用户是否正在讲话。当用户没有说话时，发送更少的比特，这对于移动电话运营者来说是非常合乎需要的特征，因为这增大了移动电话信道的容量。然而，在嘈杂环境中，该算法无法区分语音信号和噪声信号，静默检测器无效，并且发送的比特的数目将会较高。将会明白，触摸屏SAD100即使在嘈杂环境中也可提供可靠的静默检测器，这可大幅提闻经由移动/[目道的传送效率。
[0050]还将明白，在移动电话的使用期间发射的辐射量可能是一些用户所关心的。在本发明的替换实施例中，触摸屏SAD100可用于通过判定是否存在P(i，j，n)读数来判定用户10何时让移动电话20接触了脸部。如果存在读数，则根据此替换实施例，语音活动分析器130通知处理器120 (图3)。处理器120随后指示移动电话20的中央处理单元(CPU)降低发送功率。以相同的方式，处理器120可指示CPU降低CPU功率以便节省电池使用，因为当移动电话200未在发送时可要求更少的电力。将会明白，触摸电话SAD100可用作指示器、用作静默检测器并且用作减少移动电话发射和节省电力的工具。
[0051]本发明可连同额外的手段一起用在一些情况中。例如，现代通信设备配备有诸如加速度计的传感器，适于判定设备何时被拿到用户的耳边，以例如使屏幕上的触摸命令无效，以便用户不会无意地用脸颊激活这些触摸命令。将这种信息与来自触摸屏的输入(脸颊交互)相结合也在本发明的范围内。
[0052]除非另有具体声明，否则从以上论述可以清楚的是，要明白在整个说明书中，利用诸如“处理”、“计算”、“运算”、“判定”等术语的论述指的是计算机、计算系统或类似的电子计算设备的动作和/或处理，其将被表示为计算系统的寄存器和/或存储器内的物理量(例如电子量)的数据操纵和/或变换成被类似地表示为计算系统的存储器、寄存器或其他这样的信息存储设备、传送设备或显示设备内的物理量的其他数据。
[0053]本发明的实施例可包括用于执行这里的操作的装置。此装置可以是为期望的目的而专门构造的，或者可包括由存储在计算机中的计算机程序选择性地激活或重配置的通用计算机。这种计算机程序可存储在计算机可读存储介质中，计算机可读存储介质例如，但不限于，包括软盘、光盘、磁光盘在内的任何类型的盘、只读存储器(ROM)、紧凑盘只读存储器(⑶-ROM )、随机访问存储器(RAM )、电可编程只读存储器(E P ROM )、电可擦除可编程只读存储器(EEPR0M)、磁卡或光卡、闪存、或者任何其他类型的适用于存储电子指令并且能够被耦合到计算机系统总线的介质。
[0054]虽然这里已示出和描述了本发明的某些特征，但本领域普通技术人员将清楚许多修改、替换、变化和等同内容。因此，要理解，所附权利要求旨在覆盖所有属于本发明的真实精神内的修改和变化。
【权利要求】
1.一种移动通信系统，包括: a)设置有触摸屏的移动通信设备；以及 b)语音活动分析器，适于从所述触摸屏接收指示施加到所述触摸屏的区域的压力和所述压力随着时间的变化的数据。
2.根据权利要求1所述的系统，其中，所述语音活动分析器包括: A)群集处理器，用于识别群集； B)特征提取器，用于从由所述群集处理器识别的群集中提取参数； C)特征分析器，分析所述参数；以及 D)语音活动判决装置元件，适于处理所述参数以判定用户是否在讲话。
3.根据权利要求1所述的系统，其中，所述语音活动分析器与所述移动通信设备是一体的。
4.根据权利要求1所述的系统，其中，所述语音活动分析器位于远离所述移动通信设备处并且与所述移动通信设备通信。
5.根据权利要求1所述的系统，其中，所述语音活动分析器与所述移动通信设备之间的通信是经由W1-Fi或蓝牙、或者通过任何有线或无线手段执行的。
6.根据权利要求3或4所述的系统，其中，所述移动通信设备是蜂窝电话。
7.根据权利要求3或4所述的系统，其中，所述移动通信设备是无绳电话。`
8.一种用于判定配备有触摸屏的移动通信设备的用户是否正在对所述移动通信设备讲话的方法，包括: (i)从所述触摸屏获得表示由所述触摸屏与用户的脸颊之间的接触产生的网格点的群集的信号； (?)分析所述群集的压力相关参数随着时间的动态变化；以及 (iii)根据所述分析判定是否存在语音活动。
9.根据权利要求8所述的方法，其中，所述群集包括像素或像素群组，这些像素或像素群组能够由这些像素或像素群组在所述触摸屏上的坐标来区分。
10.根据权利要求8所述的方法，其中，所述参数是从重心、周长、面积和取向中选择的，或者是所述参数中的两种或更多种的组合。
11.根据权利要求8所述的方法，还包括:从设置在所述移动通信设备中的传感器获得关于所述设备是否被拿到了用户的耳朵附近的指示。
【文档编号】G10L15/02GK103650032SQ201280030692
【公开日】2014年3月19日申请日期:2012年6月14日优先权日:2011年6月15日
【发明者】A·赫尔曼, U·耶胡黛申请人:骨声通信有限(以色列)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·赫尔曼;U·耶胡黛
技术所有人：骨声通信有限(以色列)有限公司
我是此专利的发明人