用于提供文本消息的方法和装置的制作方法

文档序号：2822043阅读：227来源：国知局

专利名称：用于提供文本消息的方法和装置的制作方法
技术领域：
本发明主要涉及一种利用话音来提供文本消息的方法和装置。本发明对于(但不排它的)利用话音输入来提供文本消息的方式尤其有用处，其中话音输入是在带有有限内存和计算能力的便携式电子设备上进行处理的。
背景技术：
通常采用短消息业务(SMS)格式的短文本消息在无线通信领域内应用非常广泛。每个月有几十亿的短文本消息被发送，通常从一部移动电话发向另一部移动电话。这种文本消息的流行有很多原因。消息一般只需花费一分钟移动电话呼叫费用的一小部分且无需发送或接收占线音。因此，发送用户可以在方便的时候才建立和发送消息，而接收用户则可以在方便的时候才接收并读取消息。
通常通过在移动电话的键盘内键入字符的方式来建立文本消息。但是，使用这种小型的非标准键盘来编写消息可能很不方便，且通常比采用原尺寸的标准键盘的方式需要更多的时间。但是，在移动电话上连接原尺寸的标准键盘当然是不切实际的。因此，需要采用更有效的方法来编写短文本消息。
进而，虽然现存多种公知的语音识别系统，但大多数都不适用于诸如移动电话的便携式电子设备。这是因为现有技术的语音识别系统通常需要比便携式电子设备中所能提供的更大的处理功率和内存。
现有技术的封闭式词汇语音识别系统和方法采用预先设定的、固定的词汇表。在使用中，固定词汇表可能很大但并不完全，因此，例如，它可能不包括人的姓氏或许多地名。相反，开放式词汇语音识别系统和方法使用可变的词汇表，用户可以向其中添加新的单词和词组或者删除单词和词组。但是，现有的开放式词汇语音识别系统和方法需要相对较高的计算开销，这对于诸如数字个人助理(PDA)、无线电话和其它便携式设备的便携式电子设备来说，可能承受不了。
在本说明书以及权利要求中，术语“包含”或者类似术语希望表示非排它性的包含，以使包含一组组件的方法或装置并不是仅仅只包括这些组件，而是可以很好地包括其它未列出的组件。

发明内容
根据本发明的一个方面，提供了一种用于提供文本消息的方法。该方法包括在电子设备的输入端接收话语的步骤。然后，在由用户设定的消息模板所引导的话语上进行语音识别，该消息模板存储在与电子设备相关联的存储器中，其中通过对该话语和模板之一进行匹配的方式定义语音识别，以建立一个匹配模板。然后，通过该匹配模板提供文本消息。
至少一个消息模板可以包含固定的语言成分。
至少一个消息模板可以包含可变的语言成分。
至少一个消息模板可以同时包含固定和可变的语言成分。
文本消息可以是SMS消息。
上述方法也可以包括通过接收由电子设备的键盘键入的字符来编辑由用户设定的消息模板的步骤。
文本消息的一部分可以是话语的转录(transcription)。
文本消息可以全部是话语的转录。
根据本发明的另一方面，提供了一种用于提供文本消息的电子设备。该电子设备包括一个用于接收话语的麦克风；用于存储消息模板的非易失性存储器；用于执行由该消息模板引导的话语的语音识别的处理器，其中处理器对话语和模板之一进行匹配以建立一个匹配模板，并通过该匹配模板提供文本消息。
对于该电子设备，消息模板还可以包括固定和/或可变的语言成分。
对于该电子设备，文本消息可以是SMS消息。
该电子设备可以包括一个键盘用于编辑消息模板。
该电子设备可以对话语和多个模板进行匹配以计算每个模板的似然值。

为了使本发明易于理解并付诸实现，现在将参考附图，为所示出的优选实施例提供参考。在附图中图1是根据本发明的无线电话的示意性框图。
图2是示出根据本发明的、用来提供、编辑和发送文本消息的方法的流程图。
图3是示出根据本发明的、用来提供备选消息模板列表的方法的流程图。
图4是示出根据本发明的、使用户可以编辑现有消息模板和在静态可编程存储器中保存新模板的方法的流程图。
具体实施例方式
参考图1，示出了无线电话100，它包括连接到处理器110并与其通信的射频通信单元105。以显示屏115形式呈现的输入/输出(I/O)接口、键盘120、麦克风190以及扬声器195也被连接到处理器110并与其通信。
处理器110包括编码器/解码器125以及与之相关联的存储数据的只读存储器(ROM)130，用于对可能由无线电话100发送或接收的话音或其它信号进行编码和解码。处理器110还包括微处理器135、随机存取存储器(RAM)150、静态可编程存储器155和可移动SIM模块160，其中微处理器135通过公共数据和地址总线140连接至编码器/解码器125及其相关联的字符只读存储器(ROM)145。静态可编程存储器155和SIM模块160都可以存储(在其它消息中)选中的呼入文本消息、电话本数据库以及呼出文本消息的模板(将在下文中详细描述)。微处理器135具有用于连接至键盘120、显示屏115和提示模块165的端口，其中提示模块165通常包含扬声器、振动马达和相应驱动器。字符只读存储器145存储用于对可由通信单元105接收且在键盘120上输入的文本消息进行解码或编码的代码。
射频通信单元105是一个组合式接收器和发送器，其具有共用天线170。通信单元105具有经射频放大器180连接至天线170的收发器175。收发器175还连接至组合式调制器/解调器185，调制器/解调器185把通信单元2连接至处理器110。
参考图2，该流程图示出了包括方法200的本发明的一个实施例，方法200通过采用无线电话100来提供、编辑和发送文本消息。在开始步骤205中调用方法200。在步骤210中，在诸如麦克风190的电话100的输入设备上接收话语。然后，处理器110在步骤215中对该话语波形进行采样和数字化，接着在步骤220中对其进行分段，然后在步骤225中对其进行处理以提供表示该波形的特征向量。应当注意，步骤215、步骤220和步骤225在本领域内是公知的，因此无需对此进行详细说明。
接下来，在步骤230中，对在步骤225中产生的特征向量进行语音识别。由存储在设备100的静态可编程存储器155中的用户设定的消息模板引导该语音识别。消息模板在下文中将有详细说明。然后，方法200在步骤235中为用户提供文本消息。该消息可通过使用诸如设备100的显示屏115或扬声器195的I/O接口之一来向用户提供。
向用户提供消息之后，接着用户在步骤240中能够决定是否编辑该消息。如果用户决定不对该消息进行编辑，则该消息在步骤245中以诸如SMS的消息格式发送出去。但是，如果用户在步骤240决定编辑该消息，则消息在步骤245中送出之前，先在步骤250中进行编辑。在本发明的各种实施例中，用户可以以几种不同的方式编辑消息，包括通过扬声器195的语音式的编辑或通过键盘120的键入式的编辑。然后，在步骤255结束方法200。
在本发明的另外一种实施例中，在上述的语音识别步骤230之后，提供文本消息的步骤235可以包括向电话100的用户提供备选消息模板列表，用户可从中挑选出最适合于所希望的文本消息的模板。
图3是示出用来向用户提供这种备选模板列表的方法300的流程图。当用户向键盘120或麦克风190输入命令时，在开始步骤305中调用方法300。首先，方法300包括处理器110在步骤310中从可用消息模板列表中选出一个消息模板。然后，在步骤315中，把这个选中的模板和在方法200的步骤225中提供的特征向量进行比较。接着，处理器110在步骤320中计算似然值，估计选中的模板的各个方面和输入话语的特征向量之间的匹配度。
然后，处理器110在步骤325中判断这个似然值是否高于一个已设的门限。这个门限可以由处理器110自动算出，或者由电话100的用户预先设定。如果选中的模板的似然值低于已设的门限，模板在步骤330中被拒绝。但是，如果选中模板的似然值高于已设的门限，那么在步骤335中，则认为该模板与输入话语之间有合理匹配度，并将其添加到备选模板列表中。无论选中的模板是否被拒绝或是添加到备选模板列表中，方法300都继续进行到步骤340，在该步骤中，处理器110判断所有可用的模板是否都已经评估过。如果并非所有可用的模板都被评估过，则方法300在步骤345挑选下一个消息模板并返回到步骤315，在步骤315中，将下一个模板与输入话语的特征向量进行比较。如果在步骤340中已评估过所有模板，则方法300继续进行到步骤350并向用户提供所有备选模板的列表。备选模板可以通过使用诸如设备100的显示屏115或扬声器195的I/O接口之一来向用户提供。然后，在步骤355结束方法300。
根据本发明的一个实施例，电话100的用户不限定于只使用由设备100的制造商提供的模板。相反，设备100的用户可以编辑存储在静态可编程存储器155中的现有模板，以建立自己个性化的消息模板。
参考图4，示出了使用户可以编辑现有模板并在静态可编程存储器155中保存新模板的方法400。当用户向键盘120或麦克风190输入命令时，在开始步骤405中调用方法400。在步骤410中，通过诸如显示屏115或扬声器195的I/O接口向设备100的用户提供现有模板的列表。接着，用户在步骤415中通过使用诸如麦克风190或键盘120的I/O接口来选择所需的消息模板。接下来，在步骤420中，用户再次通过使用诸如麦克风190或键盘120的I/O接口来编辑模板。最后，在步骤425中，用户在静态可编程存储器155中保存已编辑好的模板。然后，在步骤430结束方法400。
编辑消息模板的其它方法也属于本发明的范围内，其中包括通过使用诸如USB线缆的通信信道把电话100连接至主机，随后把已编辑好的模板下载或补充(flash)至静态可编程存储器155。
本发明的方法可进一步包括包含固定和可变语言成分的消息模板。固定语言成分在用户选中一个模板并发送消息时不会发生改变。而可变语言成分可以在不同的消息中(from message to message)由用户修改。固定和可变语言成分的使用大大提高了电话100的有限处理功率和内存的使用效率(leverage)。
例如，与见面请求相关的短文本消息的特定模板可能如下所示“Meet me at$PLACEat$TIME.”。在这个句子中，固定语言成分由下划线标出，而可变语言成分则大写且以“$”开头。那么，模板的不同用户就可以编辑诸如$PLACE等变量以适应其特定的环境。例如，大学生可能把可变的$PLACE设定为$PLACE＝sp|library(图书馆)|dormitory(宿舍)|cafeteria(自助餐厅)等等而律师可能把可变的$PLACE设定为$PLACE＝sp|office(办公室)|courthouse(法院)|home(家)等等在上面的句子中，“sp”指停顿或无话音，而“|”指逻辑算子“OR”。
在本发明中可能用到的消息模板的另一示例是“Happy$FESTIVAL.”。这个句子中的可变语言成分$FESTIVAL可能会被用户编辑成$FESTIVAL＝sp|birthday(生日)|new year(新年)|thanksgiving(感恩节)等等通过使用开放式的词汇语音识别，电话100能够识别出由用户输入的已编辑的可变语言成分。由于可变语言成分由变量的离散集组成，语音识别处理的开销和内存需求被缩减到最小。因此上述方法特别适用于只具有有限的处理和内存资源的设备，诸如移动电话。
对包括固定和可变语言成分的模板的使用在几个方面提高了语音识别系统的效率。其一，由于在静态可编程存储器155中存储的模板的数量相对于与自然语言句子结构相关联的句子排列的几乎无限的数量来说是不多的，所以通常可以快速而有效地识别出特定模板中的固定语言成分。其二，由于消息模板中的可变语言成分的句中位置能够自动识别出可能答复语的离散集，所以也可以高效地识别出可变语言成分。例如，以上述的“Happy$FESTIVAL”消息模板为例，固定语言成分“Happy”可作为一个信号，使处理器110知道麦克风190接收到的随后的话音输入将是可变语言成分“$FESTIVAL”。
虽然本发明的上述实施例是通过无线电话100来说明的，但是本发明的方法和装置也可以包括诸如数字个人助理(PDA)之类的可提供文本消息的其它电子设备。
因此，本发明简化了从便携式电子设备上提供和发送文本消息所需的步骤。文本消息可通过话音输入而不是从小型键盘键入字符的方式来提供。此外，本发明可以包括开放式词汇语音识别，以避免现有技术的封闭式词汇语音识别对内存的高度需求。开放式词汇语音识别采用独立于扬声器的子词(sub-word)声学模型，设计成涵盖一种语言的所有声音现象(occurrence)或音素(phoneme)。因此，用户不限定于只使用预先设定的词汇，也能够编辑如上所述的可变语言成分，以包括诸如人名和地名等词典里查不到的单词。因此本发明提供的文本消息可以高度地个性化。
上述的详细说明只提供了优选的示范性实施例，且不视作对本发明的范围、适用性或配置的限制。更合适的说，该优选的示范性实施例的详细说明给本领域的普通技术人员提供了实现本发明的优选的示范性实施例的指导性说明。应当理解，在不背离所附权利要求中所要求的本发明的精神和范围的前提下，可以对组件的功能和排列做出多种的改变。
权利要求
1.一种用来提供文本消息的方法，所述方法包括如下步骤在电设备的输入端接收话语；在由用户设定的消息模板所引导的所述话语上执行语音识别，所述消息模板存储在与所述电子设备相关联的存储器中，其中通过对所述话语和所述模板之一进行匹配的方式定义语音识别，以建立一个匹配模板；以及通过所述匹配模板提供文本消息。
2.如权利要求1所述的方法，其中所述消息模板中至少有一个包含固定的语言成分。
3.如权利要求1所述的方法，其中所述消息模板中至少有一个包含可变的语言成分。
4.如权利要求1所述的方法，其中所述消息模板中至少有一个同时包含固定和可变的语言成分。
5.如权利要求1所述的方法，其中所述文本消息是SMS消息。
6.如权利要求1所述的方法，其进一步包括通过接收从所述电子设备的键盘键入的字符来编辑所述的用户设定的消息模板的步骤。
7.如权利要求1所述的方法，其中所述文本消息的一部分是所述话语的转录。
8.如权利要求1所述的方法，其中所述文本消息全部是所述话语的转录。
9.一种用于提供文本消息的电子设备，所述设备包括麦克风，用于接收话语；非易失性存储器，用于存储消息模板；以及处理器，用于进行由所述消息模板引导的所述话语的语音识别，所述处理器操作地对所述话语和所述模板之一进行匹配以建立一个匹配模板，并通过所述匹配模板提供文本消息。
10.如权利要求9所述的方法，其中所述消息模板中至少有一个包含固定的语言成分。
11.如权利要求9所述的方法，其中所述消息模板中至少有一个包含可变的语言成分。
12.如权利要求9所述的方法，其中所述消息模板中至少有一个同时包含固定和可变的语言成分。
13.如权利要求9所述的设备，其中所述文本消息是SMS消息。
14.如权利要求9所述的设备，其进一步包括一个用于编辑所述消息模板的键盘。
15.如权利要求9所述的设备，其中所述处理器操作地对所述话语和多个所述模板进行匹配并计算每个所述模板的似然值。
全文摘要
本发明公开了一种用于提供文本消息的方法和装置，其包括电子设备(100)的输入端接收话语(步骤210)。然后，在由用户设定的消息模板所引导的话语(步骤230)上进行语音识别，其中该消息模板存储在与电子设备(100)相关联的存储器(155)中。通过对该话语和模板之一进行匹配的方式定义语音识别，以建立一个匹配模板。然后，通过该匹配模板提供文本消息(步骤235)。
文档编号G10L15/26GK1601548SQ0312496
公开日2005年3月30日申请日期2003年9月23日优先权日2003年9月23日
发明者张亚昕, 何昕, 任晓林, 孙放申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张亚昕;何昕;任晓林;孙放
技术所有人：摩托罗拉公司
我是此专利的发明人

上一篇：乐音发生方法与设备的制作方法
上一篇：键盘乐器的键盘盖止动装置的制作方法