移动设备上的多传感语音增强方法和装置的制作方法

文档序号：2822458阅读：193来源：国知局

专利名称：移动设备上的多传感语音增强方法和装置的制作方法
技术领域：
本发明涉及移动设备，尤其涉及多传感移动设备。
背景技术：
如移动电话和个人数字助理等提供电话功能或接受语音输入等移动手持设备经常用在不利的噪声环境中，例如忙碌的街道、餐馆、飞机场和汽车。这些环境中强列的环境噪声会使用户的语音变得模糊，并且难以理解对方在说什么。另外，它严重地降低了语音识别的准确度。
虽然已经开发了试图基于噪声模型去除噪声的噪声过滤系统，然而这些系统尚不能去除所有的噪声。尤其是，很多这样的系统发现很难去除由背景中的其他人的讲话构成的噪声。导致如此的原因之一是对于这些系统即使不是不可能也是非常困难来确定从话筒接收到的语音信号是出自与使用该移动设备的人不同的其他人。
对于电话头戴耳机(它们通过圈套在用户头部或耳朵上，处于用户的头部)，已经开发了通过依赖于头戴耳机中的附加类型传感器来提供更健壮的噪声过滤的系统。在一个例子中，骨导传感器被安放在头戴耳机的一端，并且由该头戴耳机的弹性施加压力以与覆盖用户头骨、耳朵或下颚的皮肤接触。该骨导传感器检测当用户讲话时引起的头骨、耳朵或下颚中的振动。使用来自骨导传感器的信号，该系统能够在用户正在讲话时更好地进行鉴别，并且其结果是能更好地过滤该语音信号中的噪声。
虽然这样的系统对于头戴耳机工作良好，但头戴耳机被限于沿有线连接与电话通信。这样，其在广泛的通信应用中的用途被限制。另外，头戴耳机看上去无吸引力(大而笨重)，而且整天头戴很不舒服，结果用户不可能希望整天戴着它们。这使得头戴耳机使用起来很麻烦。

发明内容
提供一种移动设备，它包括一气导话筒和一备选传感器，该备选传感器提供一指示语音的备选传感器信号。一种通信接口允许该移动设备直接与其他移动设备通信。

图1是本发明的一个实施例的立体图。
图2示出了图1的电话，它处于用户头部的左侧。
图3示出了图1的电话，它处于用户头部的右侧。
图4是骨导话筒的框图。
图5是本发明的一个替换实施例的立体图。
图6是在本发明的一个实施例中的备选骨导话筒的剖面图。
图7是本发明的移动设备的项链实施例的前视图。
图8是图7的项链实施例的后视图。
图9示出了处于用户处的图7的项链实施例。
图10提供了本发明的移动设备的手镯/手表实施例的立体。
图11是本发明的一个实施例中的移动设备的框图。
图12是本发明的通用语音处理系统的框图。
图13是示出本发明的移动设备可能通信连接的框图。
图14是示出与本发明的移动设备的多个通信连接以方便会议的框图。
图15是示出与本发明的移动设备的多个通信连接以便于分派工作定单的框图。
图16是示出与本发明的移动设备的多个通信以方便组通信和帮助救援的框图。
图17是示出与本发明的移动设备的多个通信以便于游戏的框图。
图18是示出利用本发明的移动设备来存储、组织和观看视频和音频的能力的框图。
图19是示出与本发明的移动设备的多个通信连接以便于与儿童/老人定位和通信的框图。
图20是示出与本发明的移动设备的多个通信连接以方便需要语音翻译的会议的框图。
图21是示出与本发明的移动设备的多个通信连接以方便需要语音翻译的会议的框图。
图22是示出在本发明的移动设备和其他设备之间的多个对等通信连接的框图。
具体实施例方式
本发明的实施例提供移动设备，它包含气导话筒和备选传感器，该备选传感器能用于语音检测和噪声过滤。本发明的移动设备的例子包括蜂窝电话、个人数字助理、珠宝和手表等。图1提供一个示例实施例，其中移动设备是移动电话100。移动电话100包括小键盘102、显示屏104、光标控制106、气导话筒108、扬声器110、两个骨导话筒112和114、和可任选的邻近传感器116。移动电话100还包括诸如电池等电源、处理器、全球定位卫星信号检测器和处理器(从电话的外部它是看不见的)。可任选地，移动电话100还可以包括脉搏传感器、血氧(oximetry)传感器、体温传感器和视频摄像机。
触摸板102允许用户将数字和字母输入到移动电话。在其他实施例中，触摸板102与显示屏104以触摸屏的形式组合在一起。光标控制106允许用户加亮和选择显示屏104上的信息，并且滚动通过比显示屏104更大的图像和页面。
如图2和3所示，当移动电话100被放在标准位置以通过电话交谈时，扬声器110被放置在接近用户的左耳200或者右耳300处，并且气导话筒108被放置在接近用户的嘴202处。当该电话被放置在接近用户的左耳时(如图2)，骨导话筒114接触用户头骨或耳朵，并产生一个提供关于语音的信息的备选传感器信号，它能够用来从气导话筒108接收的语音信号中去除噪声。例如，在备选传感器信号中提供的信息能够包括用户是否正在说话以及与用户的语音有关的低频信息。当电话被放置在接近用户的右耳时(如图3)，骨导话筒112接触用户的头骨或耳朵，并产生一个备选传感器信号，它能够用来从该语音信号中去除噪声。
可任选的邻近传感器116指出该电话如何靠近用户。如以下将讨论的，该信息用于加权骨导话筒在产生纯净语音值时的贡献。一般而言，如果邻近检测器检测到电话在用户旁边，则骨导话筒信号被加以比如果电话离用户有某个距离时更大的权重。这种调整反映了这样的事实当骨导话筒与用户接触时，其信号更能表示该用户正在说的话。当它远离用户时，它更容易受环境噪声的影响。邻近传感器用于本发明的实施例中，因为用户并不总是将电话压在其头部。
图4示出了本发明的骨导传感器400的一个实施例。在传感器400中，一个软弹性体桥402黏附于普通气导话筒406的振动膜404上。该软桥402将来自用户的皮肤接触处408的振动直接传导到话筒406的振动膜404。振动膜404的运动由话筒406中的转换器转换成电信号。
图5提供了本发明的手持移动设备的一个替换的移动电话实施例500。移动电话500包括小键盘502、显示屏504、光标控制506、气导话筒508、扬声器510、以及骨导话筒和邻近传感器的组合512。
如在图6的剖面图中所示，骨导话筒和邻近传感器的组合512包含一个软的、用介质填充(用液体或弹性体)的衬垫600，它具有外表面602，它被设计成当用户将电话放置在靠近他们的耳朵时接触用户。衬垫600形成了围绕一开口的环，该开口为来自说话者的声音提供了出入口，位于电话500内的开口中或直接在开口之下。衬垫600并不限于这种形状，并且对衬垫可以使用任何形状。然而，一般而言，如果衬垫600包括到扬声器510的左边和右边的部分将是较佳的，使得不管用户将哪个耳朵放置在靠近电话，衬垫600的至少一部分将与用户接触。衬垫的部分可以是外表上连续的，或者在外表上是分离的，但是在电话内都是流畅地相互连接的。
一电子压力转换器604液压地连接到衬垫600中的液体或弹性体，并且将衬垫600中液体的压力转换成在传导器606上的电信号。电子压力转换器604的例子包括基于MEMS的转换器。通常，压力转换器604应该具有高频响应。
传导器606上的电信号包括两个分量，一个DC分量和一个AC分量。DC分量提供邻近传感器信号，因为当电话被压靠到用户的耳朵时，衬垫600中的静态压力高于当电话离用户的耳朵有某一距离时的压力。该电信号的AC分量提供骨导话筒信号，因为用户的头骨、颌骨或耳朵的骨骼中的振动造成了衬垫600中的压力波动，它由压力转换器604转换成为一个AC电信号。在一个实施例中，过滤器被应用于该电信号以允许该信号的DC分量和最小频率以上的AC分量能通过。
虽然以上已经描述了两种骨导传感器，但其他形式的骨导传感器也在本发明的范围以内。
图7和8示出了本发明的移动设备的一个替换实施例的前视图和后视图。在图7和8中，移动设备700包含项链或颈饰702和耳蕾(ear bud)704。项链702包括一个装饰/装饰性的圆盘或垂饰706，它从诸如细线或金属线等颈项啮合部分708上悬挂下来。该颈项啮合部分支撑将移动设备支撑在用户上，并且被设计成环绕地系在用户的颈项上。装饰盘706包括话筒开口708和视频开口710。
如图8的后视图所表示的，移动设备700包括向气导话筒712供电的电池710、备选传感器714、视频摄像机716、处理芯片组718、以及全球定位卫星(GPS)接收器720。处理芯片组718被连接到气导话筒712、备选传感器714、视频摄像机716和GPS接收器720。处理芯片组718包括处理器、记忆存储以及输入/输出接口和通信接口。通信接口允许处理器与耳蕾704内的处理器通信，从而允许处理芯片组718中的处理器将表示声学信息的电信号发送到耳蕾704。处理芯片组718的通信接口还可以无线地与一组其他设备通信，包括视频显示器、个人计算机、路由器和其他移动设备。用于这些通信的协议能够包括任何已知的协议，包括802.11协议的任何变种。
耳蕾704包括外表部分730、耳道部分732和扬声器开口734。耳蕾704从处理芯片组718接收信号，并且通过对耳蕾704内部的扬声器将该信号转换成听觉信号。该听觉信号通过扬声器开口734导出到用户的耳朵。耳蕾704包括电池(未示出)和通信接口，这就允许它与处理芯片组718的通信接口进行通信。
如在图9中所示，颈项啮合部分708围绕用户的颈项900以将垂饰706安置为接触用户颈项的前部并稍许在喉部的甲状软骨(通常被称作为“喉结”)之下。耳蕾704被放置在用户的耳朵中，使得外表部分730在耳屏900和外耳的反耳屏部分902之间延伸。
图10提供本发明的移动设备的另一个实施例的图示。在图10中，该移动设备包括手表或手镯1000和耳蕾1002。手表1000包括外壳1001，它被安装在手腕啮合部分(例如带子)1006上，该手腕啮合部分被设计成安全地围绕在用户的手腕上。外壳1001具有持有一组电子设备的内部，包括电池、处理器、存储器、通信接口、输入/输出接口、全球定位卫星接收器、视频摄像机、扬声器、气导话筒、脉搏传感器、血氧传感器和体温传感器。这些设备将在图11中更详细地描述。通信接口允许处理器与耳蕾1002内的处理器通信，从而将声学信息发送到耳蕾1002并从耳蕾1002中的备选传感器1018接收数据。另外，通信接口允许与路由器、个人计算机和其他移动设备的一个或多个的无线通信。外壳1001包括对应于外壳中的某些电子设备的开口，这些设备包括脉搏和血氧测量计1008、气导话筒1010以及视频摄像机1012。当用户将他们的手指放在测量计之上时，脉搏和血氧测量计1008测量用户的脉搏，并且还使用光源和光传感器测量用户血液的氧含量。外壳1001的一侧的外部还包括显示屏1004。
耳蕾1002包括被设计成被安置在用户的耳道中的耳朵部分1014和扬声器开口1016。另外，耳蕾1002包括备选传感器1018，当耳蕾1002在用户的耳道中时，该备选传感器静搁在用户的颚前。
图11是在本发明若干实施例中移动设备1100的框图。移动设备1100包括电源1152、微处理器1102、存储器1104、输入/输出(I/O)接口1106、以及用于与远程计算机、通信网络或其他移动设备通信的通信接口1108。在一个实施例中，上述组件被耦合在一起，用于通过合适的总线1110彼此通信。另外，需要电源的所有组件都被连接到电源1152，它通常是电池。在图11中，电源1152和其余组件之间的连接并未示出，以避免该图不必要的复杂化。
存储器1104可以被实现为非易失性电子存储器，例如具有电池后备模块(未示出)的随机存取存储器(RAM)，这样，当移动设备1100的总电源关闭时，储存在存储器1104中的信息也不会丢失。作为选择，存储器1104的全部或部分可以是易失性或非易失性可移动存储器。存储器1104的一部分较佳地被分配为可寻址存储器用于程序的执行，而存储器1104的另一部分较佳地用作储存，例如模拟磁盘驱动器上的储存。
存储器1104包括操作系统1112、应用程序1114和对象存储1116。在操作期间，操作系统1112较佳地由处理器1102从存储器1104中执行。在一个较佳实施例中，操作系统1112是可从微软公司购买的WINDOWS@CE操作系统。操作系统1112较佳地被设计成用于移动设备，并且实现数据库特征，数据库特征能够由应用程序1114通过一组所揭示的应用程序编程接口和方法来利用。对象存储1116中的对象由应用程序1114和操作系统1112至少部分地响应于对所揭示的应用程序编程接口和方法的调用来维护。
通信接口1108表示允许移动设备1100发送和接收信息的众多的设备和技术。在某些实施例中，通信接口1108包括蜂窝电话网络接口，它与蜂窝电话网络交互以允许安插和接收呼叫。其他接口包括PBx电话接口、如802.11及其变种等无线协议接口、卫星接收器和广播调谐器等。移动设备1100还能够直接连接到计算机以与之交换数据。在这种情况下，通信接口1108能够是红外收发器或串行或并行通信连接，所有这些都能够传输流信息。
通信接口1108允许移动设备1100与外部服务器1154和远程设备1156通信，包括与其他移动设备的直接通信。
由处理器1102为实现本发明而执行的计算机可执行指令可以被存储在存储器1104中或者通过通信接口1108接收。这些指令可以在计算机可读介质中找到，该介质(并无限制)能够包括计算机存储介质和通信介质。
计算机存储介质包括易失性和非易失性、可移动和不可移动介质两者，它们以任何方法或技术实现，用于存储如计算机可读指令、数据结构、程序模块或其他数据等信息。计算机存储介质包括(但不限于)RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或者任何其他能够被用来存储所要求的信息并且能够被访问的介质。
通信介质通常具体化为已调制数据信号(如载波或其他传输机制)中的计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“已调制数据信号”意指一种信号，其一个或多个特征按对信号中的信息编码的方式来设置或改变。作为例子，而非限制，通信介质包括有线介质，如有线网络或者直接线路连接，以及无线介质，如声学、RF、红外和其他无线介质。任何以上的组合也应该被包括在计算机可读介质的范围之内。
输入/输出接口1106表示到一组输入和输出设备的接口，该设备包括全球定位卫星(GPS)接收器1148、视频摄象机1150、扬声器1130、数字输入1132(如一个或一组按钮、触摸屏、跟踪球、鼠标板、滚轮、或者以上组件的组合，只要能够由用户的拇指或手指操纵)、显示屏1134、气导话筒1136、备选传感器1138、脉搏传感器1142、血氧传感器1144和体温传感器1146。在一个实施例中，备选传感器1138是骨导或喉导话筒。以上列出的设备是作为例子，并且没有必要都在移动设备1100上存在。另外，在本发明的范围之内，其他输入/输出设备可以附加到移动设备1100或与它一起找到。
通过使用气导话筒和备选传感器，本发明的实施例能够提供增强的语音信号。图12提供本发明的实施例的语音处理系统的基本框图，该系统提供了增强的语音信号。
在图12中，扬声器1200生成语音信号1202，它由气导话筒1204和备选传感器1206检测。备选传感器的一个例子是骨导传感器，它被定位在用户的面部或头骨(例如颚骨)之上或位于其附近，或者在用户的耳朵上，并且传感对应于由用户生成的语音的耳朵、头骨或颚的振动。备选传感器的另一个例子是红外传感器，它瞄准和检测用户嘴部的运动。备选传感器的又一个例子是喉部传感器，它传感对应于由用户生成语音的用户喉部的振动。气导话筒1204是常用于将音频空气波转换成为电信号的话筒类型。
气导话筒1204也接收由一个或多个噪声源1210生成的噪声1208。取决于备选传感器的类型和噪声的级别，噪声1208也可以由备选传感器1206检测。然而，在本发明的大多数实施例中，备选传感器1206对于环境噪声通常比气导话筒1204更不敏感。因此，由备选传感器1206生成的备选传感器信号1212通常比由气导话筒1204生成的气导话筒信号1214包含更少的噪声。
备选传感器信号1212和气导话筒信号1214被提供给纯净信号估算器1216，它从备选传感器信号1212和气导话筒信号1214中估算出一个纯净语音信号1218。纯净信号估算1218被提供给语音处理1220。纯净语音信号1218可以是已过滤的时域信号，或特征域向量。如果纯净语音信号估算1218是时域信号，则语音处理1220可采用收听者、蜂窝电话发射器、语音编码系统或语音识别系统的形式。如果纯净语音信号1218是特征域向量，则语音处理1220通常是语音识别系统。
本发明采用若干方法和系统，用于使用气导话筒信号1214和备选传感器信号1212来估算纯净语音。一种系统使用立体声训练数据来训练用于备选传感器信号的校正向量。当这些校正向量稍后被添加到测试备选传感器向量中时，它们提供对纯净信号向量的估算。该系统的一种进一步扩展是首先跟踪时变失真，然后把该信息结合到校正向量的计算和纯净语音的估算中。
第二种系统提供由校正向量生成的纯净信号估算和通过从气导信号中减去气导测试信号中的当前噪声形成的估算之间的内插。第三种系统使用备选传感信号来估算语音信号的音调，并且然后使用所估算的音调来标识对于纯净语音信号的估算。第四种系统使用直接过滤，其中备选传感器信号和气导信号用于确定备选传感器的一个或多个信道响应。该信道响应然后用于估算纯净语音信号。
使用通信接口1108，本发明的移动设备能够通过大量不同的网络与大量其他设备进行通信(如在图13的方框图中所示)。在图13中，示出了三个移动设备1300、1302和1304。这些移动设备能够通过通信接口1108彼此通信。在一个特定实施例中，使用802.11通信协议在移动设备之间通信。移动设备可以在一对一的基础上彼此通信，例如仅有移动设备1300和1302的通信，而没有与移动设备1304的通信。移动设备也可以按照一对多的配置进行通信，其中一个移动设备与所有其他移动设备通信，但是其他移动设备不进行彼此间的通信。例如，移动设备1300将与移动设备1302和1304通信，但是移动设备1302将不与移动设备1304通信。移动设备也可以在多对多的基础上通信，其中所有移动设备能够彼此通信。
每个移动设备还可以与多个网络的一个或多个进行通信，这些网络例如蜂窝电话网络1306、PBx电话网络1308、以及局域网/广域网(LAN/WAN)1310。为与蜂窝电话网络1306通信，移动设备可使用通过通信接口1108到蜂窝电话塔的直接链路，或者可使用诸如802.11等本地协议与蜂窝电话通信。该蜂窝电话然后将移动设备的通信中继到蜂窝电话网络1306的蜂窝电话塔。
移动设备1300、1302和1304能够通过PBx集线器与PBx电话网络1308通信，该集线器将无线信号转换成用于PBx电话网络的有线线路信号。在本发明中，任何适用于这种集线器的协议都可被使用。移动设备能够通过到膝上型计算机、个人计算机、或是LAN/WAN一部分的无线路由器的无线连接与LAN/WAN 1310通信。
通过网络1306、1308和1310，移动设备可以与如设备1312和1314等其他设备通信。这些其他设备可以包括膝上型计算机、个人计算机、或向移动设备提供服务的服务器。在某些实施例中，这种服务器包括从语音信号标识文本的语音识别服务器，和/或将一种语言的文本翻译成另一种语言的文本或音频的翻译服务器。服务器也可可包括实况通信服务器，它允许即时消息通信、跟踪诸如用户是否能够进行会议的存在信息、以及协调通信以允许包括音频和视频通信的实况会议期间在文档上的实时协作。服务器也可包括基于位置的服务器，它提供关于移动设备的位置信息，例如指示该移动设备相对于其他兴趣的点的位置的地图。
因为本发明的移动设备使用气导话筒和备选传感器两者来传感语音信号，因此它提供了增强的语音信号，使得能够在若干应用程序中具有改进的性能。此外，这些话筒和备选传感器与其他设备(如GPS接收器、视频摄象机和诸如脉搏传感器、血氧传感器和体温传感器等健康传感器)的组合允许本发明的移动设备与多个服务器一起使用，以向多方之间简易通信提供综合解决方案。
图14提供服务器和移动设备之间的连接的框图，该连接提供了定位携带移动设备的个人的位置、向移动设备发送即时消息以请求会议、以及利用实况通信服务器来举行会议的能力。
在图14中，移动设备1300装备有GPS接收器。使用来自GPS接收器的信息，移动设备1400通过网络连接1404(如蜂窝电话网络或LAN/WAN)周期地将其位置传递给基于位置的服务器1402。这允许远程用户使用远程用户计算设备1406上的定位个人应用程序1408，以通过网络连接1410从基于位置的服务器1402获得关于移动设备1400的位置信息。该位置信息能够包括该移动设备位置的地址或图形演示，例如在地图上表示该位置。
通过网络连接1404，它可以是用于连接到基于位置的服务器1402的同一网络连接或者一种不同的网络连接，移动设备1400还能够与实况通信服务器1412通信。通过这种连接，持有移动设备1400的用户能够指出他们是不是有空且在线、以及他们在办公室还是在办公室之外。一般而言，这就是所谓“存在”信息。
另外，移动设备1400能够通过实况通信服务器1412发送和接收即时消息。这些消息来往于远程用户设备1406而传递，远程用户设备使用即时消息应用程序1414来发送和接收该消息。例如，这将允许远程用户请求移动设备1400的用户加入实况会议。
远程用户可以使用实况会议应用程序1418建立实况会议，该应用程序使用由实况通信服务器1412提供的服务，以允许多个客户机以音频和视频信号通信并操纵共享的文档，从而在移动设备1400上对该文档的作出改变实时地出现在远程用户计算设备1406的显示器上。
使用无线连接，移动设备1400能够与膝上型计算机1420通信。使用通过具有气导话筒信号和备选传感器信号两者而提供的增强语音信号，移动设备1400能够膝上电脑1420发送表示命令的语音信号向。膝上电脑1420中的命令/控制应用程序1422通过网络连接1426转发该语音信号给语音识别服务器1424。语音识别服务器1424将该语音信号转换成文本，并且将该文本返回给命令/控制应用程序1422。基于所识别的命令，命令/控制应用程序1422启动一个或多个应用程序1428并控制它们的操作。
通过命令/控制单元1422启动的应用程序之一能够包括实况会议应用程序，它允许移动设备的用户参加由远程用户生成的实况会议。膝上电脑1420能够通过网络连接1430与实况通信服务器1412通信。用户可以直接在膝上电脑1420上或者通过移动设备1400发送语音命令到膝上电脑1420来与该实况会议交互。另外，膝上电脑1420能够把由移动设备1400产生的语音信号通过实况通信服务器1412中继给远程用户设备1406，从而提供实况会议的音频部分。使用该实况会议应用程序，移动设备的用户能够与远程用户共享音频、视频和文档。这包括对于移动设备的用户和远程用户两者实时地操纵同一个文档的能力。
因而，使用图14的框图，远程用户能够确定戴有移动设备1400的个人还没有登上飞机但是还在飞机场。该远程用户然后可发送即时消息给移动设备1400的佩带者，要求移动设备的佩带者参加实况会议。当该移动设备的佩带者能够参加该会议时，他们能够开启他们的膝上电脑1420，通过移动设备1400发送命令并参加由远程用户1406建立的实况会议。会议期间，用户可通过移动设备1400讲话，为该实况会议提供音频输入。因为语音是在移动设备1400中增强的，因此提供给膝上电脑1420的命令更有效和可靠地操作，并且在实况会议期间，由移动设备1400提供的语音更加可理解。
图15提供一个替换实施例，其中本发明的移动设备由调度员使用，以向一个或多个工作者分配工作，并且与工作者交互以向他们提供完成该工作所需要的信息。具体地，调度员佩带图15中的移动设备1500。该调度员通过PBx电话网络1504从顾客接收电话呼叫，该网络1504通过PBx基站1502与移动设备1500通信。具体地，PBx基站1502提供到移动设备1500的无线连接，并将沿无线连接的通信转换成能够在PBx电话网络1504上运载的模拟信号。
在接收工作请求之后，调度员确定多个实地工作者的哪一个是有空的并且最靠近工作场所。为确定哪些工作者是有空的，调度员对移动设备1500说话以生成提供给命令/控制单元1506的语音命令。命令控制单元1506可在移动设备1500中存在，或可在例如膝上电脑或个人计算机等分离的设备中。命令/控制单元1506将语音信号转换成一个或多个命令。在一个实施例中，命令/控制单元1506通过经由网络1510将语音信号传递到语音识别服务器1508来实现这种转换。语音识别服务器1508将该语音信号转换成表示该命令的文本并且将该文本返回给命令/控制单元1506。
为确定工作者是否有空，提供给命令控制单元1506的命令将是使用存在应用程序1512来检查每个工作者“存在”状态的命令。存在应用程序通过网络连接1516与实况通信服务器1514通信。实况通信服务器存储和更新每个工作者的存在状态。具体地，每个工作者具有一台移动设备，如移动设备1518、1520和1522，它们通过网络连接器1524连接到实况通信服务器1514。注意，虽然在图15中示出了信号网络连接1524，然而每个移动设备可以通过不同的网络连接，甚至不同类型的网络连接来连接。通过网络连接1524，移动设备1518、1520和1522能够更新与该移动设备相关联的每个工作者的存在状态。
对于有空的那些工作者，调度员使用移动设备1500，通过向命令/控制单元1506发送打开定位个人应用程序1530的语音命令，来发现每个工作者的当前位置。定位个人应用程序1530通过网络连接1532与基于位置的服务器1534通信。基于位置的服务器1534通过经由网络1536接收位置信息来跟踪移动设备1518、1520和1522的位置。网络1536能够包括蜂窝电话网络，其中移动设备的位置由蜂窝电话网络中该移动设备用于通信的蜂窝电话塔来确定。在其他实施例中，每个移动设备1518、1520和1522能够包括一个GPS接收器，并且由GPS接收器确定的位置信息能够通过网络1536传递到基于位置的服务器1534。
响应于由定位个人应用程序1530的请求，基于位置的服务器1534能够提供关于每个移动设备的位置信息。该位置信息可以是地址的形式或者图形标识的形式，其中每个移动设备的位置在地图上表示。
基于每个工作者的位置，调度员选择工作者之一以向其分配工作。在一个实施例中，调度员通过经由命令/控制1506发送启动即时消息应用程序1538并创建一个即时消息的语音命令，来向该工作者发送即时消息，该即时消息经由网络1516、实况通信服务器1514、网络1524被路由到移动设备1518、1520和1522之一。在另一实施例中，调度员通过移动设备1500和命令/控制1506发送启动助理应用程序1540的命令，该应用程序访问联系数据库1542来定位与该工作者的移动设备相关联的电话号码。使用该电话号码，移动设备1500通过蜂窝电话网络1544连接到该工作者的移动设备。使用该蜂窝电话连接，调度员指示工作者前往该工作场所。
如果工作者需要前往该工作场所的方向，则调度员通过移动设备1500发送示例方向应用程序1546的语音命令，该应用程序使用基于位置的服务器1534通过移动设备1518、1520和1522向工作者之一提供方向。具体地，基于位置的服务器1534使用该移动设备的位置和由调度员通过移动设备1500提供的工作位置，来生成从工作者的当前位置到达工作场所的位置的地图和驾驶方向。
一旦工作者到达该位置，他能够使用他的移动设备(例如移动设备1518、1520和1522)与调度员建立实况会议来接收关于该工作的说明。这将能够通过让调度员使用移动设备1500调用实况会议应用程序来实现，该应用程序与实况通信服务器1514通信以允许如定单和项目计划等文档的实时协作和共享。
在本发明的其他实施例中，移动设备能够在各种通信模式之间切换。例如，在图16中，移动设备1600最初可在一对多的基础上直接将信息广播到其他移动设备1602和1604。例如，移动设备1600能够向移动设备1602和1604提供信息，如音频、视频、GPS位置信息、以及诸如脉搏、血氧和体温等健康信息。在这个通信模式期间，移动设备1604能够使用来自移动设备1600的位置信息来获得移动设备1600的佩带者的位置的图形表示。在一个特定的实施例中，移动设备1604能够通过到网络1610的无线连接将来自移动设备1600的定位信息提供给基于位置的服务器1608。基于位置的服务器1608然后将使用该位置信息生成返回给移动设备1604的地图。在这一实施例中，到网络1610的无线连接能够通过路由器、个人计算机、或膝上型计算机来做出。
移动设备1600能够从上述对等通信切换到通过网络连接1612与一个或多个服务器的通信。例如，如果移动设备1600的佩带者在工作能力检测期间遇到受损伤方，则该佩带者能够把移动设备1600从与该移动设备的一对多通信切换到通过网络1612的通信。使用该网络连接，移动设备1600的佩带者能够访问存储在连接到网络1612的web服务器1614上的网页，以便定位和与救援队1616通信。
一旦救援队1616被联系上，它能够启动救援应用程序1620来收集来自移动设备1600的信息，以在受损伤方救援中给以帮助。该信息能够包括由移动设备1600通过网络1612提供给基于位置的服务器1618的GPS位置信息。救援应用程序1620能够向基于位置的服务器1618发送获得移动设备1600的位置的图形表示的请求，从而使救援队1616很容易地定位该移动设备的佩带者。救援应用程序1620也能够使用实况通信服务器1622与移动设备1600的佩带者共享信息，例如救援队的当前位置、和期望到达的时间、以及用于照顾受损伤个人的指令。这些指令能够包括指示治疗该受损伤个人方式的视频，以及由该受损伤个人的移动设备1600捕捉的视频。
如果该受损伤个人也佩带着移动设备，例如移动设备1624，则该移动设备可通过实况通信服务器1622被包括在会议中，从而该移动设备能够提供关于受损伤方的健康信息。
如果损伤看来是严重的，则救援队能够要求在医院1626中的健康照料队使用远程急救应用程序1628参与该实况会议。该远程急救应用程序能够收集由移动设备1624提供的健康状态信息，并且允许健康照料队向救援队1616提供音频和视频指令。远程急救应用程序1628也能够允许健康照料队开始调度医院中需要的资源以照料该病人，例如诊断设备和操作房间。
本发明的移动设备还能够用于游戏环境，以允许用户与游戏中的团队成员和对手通信。如图17所示，游戏者，如游戏者1700和1702佩带各自的移动设备1704和1706，与游戏基站1708交互。
在一个实施例中，远程游戏者1710通过访问游戏者列表应用程序1712确定游戏者1700是有空的，该应用程序1712通过网络连接1713连接到实况通信服务器1714，以通过在移动设备1704和实况通信服务器1714之间经由网络1716的连接来确定游戏者1700的存在(或有效性)。如果实况通信服务器1714指示游戏者1700有空，则游戏者1710可以通过实况通信服务器1714向移动设备1704发送即时消息，以请求该游戏者参与游戏。在一个实施例中，该游戏由游戏服务器1718控制，它通过网络1720连接到游戏基站1708，且通过网络1722连接到游戏者1710。
在游戏期间，来自游戏者1700和1702的音频和视频分别由移动设备1704和1706捕捉，并且通过无线连接提供给游戏基站/PC 1708。该音频和/或视频通过网络连接1720提供给游戏服务器1718，并且由游戏服务器1718转发给游戏者1710。
在一个实施例中，为减少通过网络1720分发的音频信息的带宽，当与该移动设备相关联的游戏者正在讲话时，移动设备1704和1706过滤出所有并没有发生的声音。具体地，通过使用移动设备中的备选传感器，移动设备能够确定游戏者何时实际地在讲话。当游戏者不在讲话时，移动设备不发送任何音频数据。结果，来自房间中存在的其他游戏者的语音信号或者由游戏站通过扬声器1724生成的语音信号并不由移动设备1704和1706作为音频数据输出。这减少了发送给游戏基站1708的信息量，并从而减少了通过网络1720的信息量。通过减少由移动设备1704和1706输出的信息量，由于不需要移动设备过滤和广播不想要的音频数据，本发明也减少了移动设备1704和1706的功耗。节省功耗的另一种更直接的方式是在用户不在讲话时关闭处理(在话筒中)。
本发明的移动设备还允许记录和存储较高质量的音频，尤其是语音信息，它能够在以后被回顾。图18提供一个系统的框图，它允许音频和视频数据的存储和回顾。
在图18中，移动设备1800在音频/视频记忆存储1802中本地存储音频和视频数据。使用到个人计算机1804的无线连接，存储在记忆存储1802中的音频和视频数据能够被下载到PC 1804成为已下载数据1806。当该音频和视频数据被存储在记忆存储1802中时，移动设备1800包含一指示该音频和视频被捕捉的时间和日期的时间标记，以及指示当收集该音频和视频时移动设备1800的位置的位置标记。在一个实施例中，时间标记从时钟1801生成，而位置标记由全球定位卫星接收器1803生成。时间标记和位置标记与相应的音频和视频片段一起下载到已下载数据1806中。
使用时间标记，基于时间的组织程序1808能够基于时间来组织数据，以形成按时间组织的数据1810。基于位置的组织程序1812基于与该数据相关联的位置标记来组织音频和视频数据，以形成按位置组织的数据1814。然后，用户能够使用个人计算机1804的显示器回顾按时间组织的数据1810和按位置组织的数据1814。
已下载数据1806中的音频数据也可以由转录应用程序1816转录。为转录音频数据，转录应用程序1816可使用语音识别服务器1818，它可在个人计算机1804上本地发现，或者可通过网络连接1820连接到个人计算机1804。转录应用程序1816将表示音频信号的音频数据发送到语音识别服务器1818，它将该音频数据转化成文本。该文本然后返回给转录应用程序1816，它使用该文本产生转录本1822。因为移动设备1800使用备选传感器和气导话筒来收集语音数据，因此由语音识别服务器1818执行的识别被很大程度地改进，并且转录本1822更好地反映了由移动设备1800收集的实际语音。
一旦形成了转录本1822，用户能够调用搜索转录本1822关键词的搜索应用程序1824来定位特定的谈话。
本发明的移动设备还可以用于定位佩带着移动设备的小孩和老人并与其通信。例如，在图19中，移动设备1900由小孩或老人佩戴。该移动设备通过网络1902将GPS位置信息提供给基于位置的服务器1904。使用个人计算机1906，另一用户可以联系基于位置的服务器1904以获得关于移动设备1900的佩带者的位置信息。该位置信息能够以地址或地图的图形表示的形式来提供，该图形表示指示佩带着在地图中的位置。其他用户也可以使用电话1908通过与移动设备1900通信的电话网络1910连系该移动设备的佩带者。这一电话网络的一个例子是蜂窝电话网络。通过使用备选传感器和气导话筒传感器，移动设备1900提供较好的语音信号，用于通过电话网络1910通信。当移动设备1900的佩带者是小孩或老人时，这就显得尤其重要，因为小孩和老人的语音信号往往有较低的幅度，并因此在噪声环境中要辨别就比较困难。
本发明的移动设备还能用于改进自动翻译服务。例如，在图20中，移动设备2000从移动设备2002的佩带者和外国谈话者2004接收语音输入。因为移动设备是由佩带者2002佩带，因此移动设备2000能够在由佩带者2002产生的语音和由外国谈话者2004产生的语音之间做出区分。这样，由外国谈话者2004产生的语音就能够由移动设备2000通过网络连接2008自动地路由到翻译服务器2006。然后，翻译服务器2006能够返回由外国谈话者2004产生的语音的经翻译的音频或经翻译的文本。使用移动设备2000上的显示屏或移动设备2000上的扬声器，佩带者2002就能够理解外国谈话者2004的语音的内容。因为移动设备2000能够自动地分离这两种语音信号，因此翻译就更容易获得。
移动设备2000还可以与远程用户2010共享外国语音、经翻译的语音或经翻译的文本、以及由移动设备2000所捕捉的外国谈话者的视频。在一个实施例中，该信息通过实况通信服务器2012来共享，该服务器通过网络连接2014连接到远程用户2010，并通过网络连接2008连接到移动设备2000。使用通过实况通信服务器2012的连接，远程用户2010能够与外国谈话者2004交谈，并且能够通过在移动设备2000上的显示屏向外国谈话者2004提供视频数据。由远程用户2010提供的语音可以由移动设备2000路由到翻译服务器2006，以被翻译成为外国谈话者的语言。然后，基于该翻译的音频信号通过移动设备2000上的扬声器提供给外国谈话者。
图21提供本发明的一个替换实施例，用于改进自动翻译服务。在图21中，移动设备2100从移动设备2102的佩带者和外国谈话者2104接收语音输入。因为移动设备由佩带者2102佩带，因此移动设备2100能够在由佩带者2102产生的语音和由外国谈话者2104产生的语音之间做出区分。这样，由外国谈话者2104产生的语音在移动设备2100和另一个移动设备2105之间的通信中能够被识别。移动设备2105能够提取已由移动设备2100识别为来自外国谈话者的语音数据，并且通过网络连接2108把它提供给翻译服务器2106。然后，翻译服务器2106能够返回由外国谈话者2104产生的语音的经翻译的音频或经翻译的文本。使用移动设备2100上的显示器或移动设备2100上的扬声器，佩带者2102就能够理解外国谈话者2104的语音的内容。因为移动设备2100能够自动地分离这两种语音信号，因此翻译就更容易被获得。
移动设备2105还可以与多个远程用户2110、2120、和2130共享外国语音、经翻译的音频或经翻译的文本、以及由移动设备2100捕捉的外国谈话者的视频。在一个实施例中，该信息通过实况通信服务器2112来共享，该服务器通过网络连接2114连接到远程用户2110、2120和2130，并通过网络连接2108连接到移动设备2105。使用通过实况通信服务器2112的连接，远程用户2110、2120和2130能够与外国谈话者2104交谈，并且能够通过移动设备2100上的显示屏将视频数据提供给外国谈话者2104。由远程用户2110、2120和2130提供的语音可以由移动设备2105路由到翻译服务器2106，以被翻译成外国谈话者的语言。然后，基于该翻译的音频信号通过移动设备2100上的扬声器被提供给外国谈话者。
本发明的移动设备还可以在对等模式中与其他设备通信，例如打印机、电器、媒体记录器、媒体播放器以及和汽车。图22提供示出与其他设备(如设备2202、2204和2206)通信的移动设备2200的示意图。
在一个特定的实施例中，使用802.11通信协议以在移动设备和其他设备之间通信。移动设备可以在一对一的基础上与其他设备通信，例如使移动设备2200与设备2202通信而不与设备2204和2206通信。移动设备也可以按照一对多的配置来通信，其中该移动设备或其他设备之一与该移动设备和所有其他设备通信，但是其他设备并不彼此通信。例如，移动设备2200将与设备2202和2204通信，但是设备2202将不与设备2204通信。这些设备还可以在多对多的基础上进行通信，其中所有的设备和移动设备都能够彼此通信。
虽然已经参照特定的实施例描述了本发明，然而本领域的技术人员将认识到，可以在形式和细节上做出改变，而不脱离本发明的精神和范围。
权利要求
1.一种移动设备，其特征在于，包括一气导话筒，它将声波转换成电子话筒信号；一备选传感器，它提供包括关于语音的信息的电子备选传感器信号；以及一通信接口，它允许所述移动设备直接与其他移动设备通信。
2.如权利要求1所述的移动设备，其特征在于，所述通信接口允许与其他移动设备的多种类型的通信。
3.如权利要求2所述的移动设备，其特征在于，所述多种类型的通信之一包括与一个其他移动设备的一对一通信，即使是当一个以上其他移动设备可用于通信时。
4.如权利要求2所述的移动设备，其特征在于，所述多种类型的通信之一包括与多个其他移动设备的一对多通信。
5.如权利要求2所述的移动设备，其特征在于，所述多种类型的通信之一包括多对多通信。
6.如权利要求1所述的移动设备，其特征在于，所述通信接口还允许与网络通信。
7.如权利要求6所述的移动设备，其特征在于，所述通信接口还允许与网络上的服务器通信。
8.如权利要求7所述的移动设备，其特征在于，与所述服务器的通信包括音频和视频。
9.如权利要求8所述的移动设备，其特征在于，与所述服务器的通信还包括对应于与另一计算设备共享的文档的图像的数据。
10.如权利要求9所述的移动设备，其特征在于，与所述服务器的通信还包括修改所述文档的指令，并且其中，基于所述指令，所述服务器修改所述文档并向所述其他计算设备提供对应于所述文档的修改的数据。
11.如权利要求7所述的移动设备，其特征在于，所述移动设备还包括一全球定位卫星接收器，它能够生成一指示所述移动设备的位置的位置值。
12.如权利要求11所述的移动设备，其特征在于，与服务器的通信还包括向所述服务器提供所述位置值。
13.如权利要求7所述的移动设备，其特征在于，所述服务器主存一语音识别程序，并且其中，与所述服务器的通信包括将音频数据提供给所述服务器，以及从所述服务器接收所识别的文本。
14.如权利要求7所述的移动设备，其特征在于，所述服务器主存一翻译程序，并且其中，与所述服务器的通信包括将一种语言的内容提供给所述服务器，以及从所述服务器接收另一种语言的翻译。
15.如权利要求1所述的移动设备，其特征在于，所述移动设备包括蜂窝电话。
16.如权利要求1所述的移动设备，其特征在于，所述移动设备包括个人数字助理。
17.如权利要求1所述的移动设备，其特征在于，所述通信接口还允许与另一设备的直接通信。
18.移动设备中的一种方法，其特征在于，所述方法包括接收气导话筒信号；接收包括关于语音的信息的备选传感器信号；基于所述气导话筒信号和所述备选传感器信号估算增强的纯净语音值；以及将所述增强的纯净语音值直接提供给另一移动设备。
19.如权利要求18所述的方法，其特征在于，将所述增强的纯净语音值直接提供给另一移动设备包括，在所述移动设备和其他移动设备之间的一对一通信期间提供所述增强的纯净语音值。
20.如权利要求18所述的方法，其特征在于，将所述增强的纯净语音值直接提供给另一移动设备包括，在所述移动设备和多个其他移动设备之间的一对多通信期间提供所述增强的纯净语音值。
21.如权利要求18所述的方法，其特征在于，将所述增强的纯净语音值直接提供给另一移动设备包括，在多个移动设备之间的多对多通信期间提供所述增强的纯净语音值。
22.如权利要求18所述的方法，其特征在于，还包括在所述移动设备和计算设备网络之间的通信。
23.如权利要求22所述的方法，其特征在于，还包括在所述移动设备和所述计算设备网络的服务器之间的通信。
24.如权利要求23所述的方法，其特征在于，所述移动设备和所述服务器之间的通信包括传递即时消息。
25.如权利要求23所述的方法，其特征在于，所述移动设备和所述服务器之间的通信包括传递信息，所述信息与和所述服务器通信的移动设备共享。
26.如权利要求25所述的方法，其特征在于，所共享的信息包括对所述移动设备和所述其他计算设备上显示的对象的改变。
27.如权利要求26所述的方法，其特征在于，所共享的信息还包括音频信息。
28.如权利要求27所述的方法，其特征在于，所共享的信息还包括视频信息。
29.如权利要求23所述的方法，其特征在于，还包括确定所述移动设备的位置，以及将所述移动设备的位置从所述移动设备传递到所述服务器。
30.如权利要求29所述的方法，其特征在于，还包括使用所述移动设备的位置来生成地图，以及将所述地图从所述服务器传递到另一计算设备。
31.如权利要求23所述的方法，其特征在于，还包括使用所述服务器上的翻译服务，以基于从所述移动设备发送到所述服务器的数据将文本从一种语言翻译成另一种语言。
32.如权利要求31所述的方法，其特征在于，还包括将表示音频信号的值从所述服务器返回到所述移动设备，所述音频信号表示所述文本的翻译。
33.如权利要求31所述的方法，其特征在于，还包括将文本从所述服务器返回到所述移动设备，所述文本表示该文本的翻译。
34.如权利要求18所述的方法，其特征在于，还包括在所述移动设备和另一设备之间通信。
全文摘要
一种移动设备包括一气导话筒和一备选传感器，该备选传感器提供指示语音的备选传感器信号。一种通信接口允许该移动设备直接与其他移动设备通信。
文档编号G10L21/02GK1761265SQ20051009927
公开日2006年4月19日申请日期2005年9月12日优先权日2004年10月12日
发明者M·J·辛克莱尔, R·P·格拉诺夫特, 张正友, 刘自成申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｍ.Ｊ.辛克莱尔;Ｒ.Ｐ.格拉诺夫特;张正友;刘自成
技术所有人：微软公司
我是此专利的发明人

上一篇：免于老化的变换器、使用该变换器的乐器及其使用方法
上一篇：背带接合件的制作方法