在语音识别中插入字符的方法和设备与流程

文档序号：11133906阅读：558来源：国知局

本发明涉及一种在语音识别中插入字符的方法和设备。

背景技术：

信息处理设备的便携性已经使得用户能够在任何地方使用设备。一些用户更喜欢使用语音转文本技术或语音识别软件来给这些设备例如智能电话、平板电脑、智能手表、个人计算机、膝上型计算机等提供输入。随着语音转文本技术变得更精确并且更易于使用，用户采用软件而不是短信例如采用电子邮件听写而不是短的文本消息来提供文本的长的主体部分。为了使用语音转文本技术进行精确的听写，用户必须提供语音命令以将标点输入到文本的主体中。例如，用户必须说词语“逗号”而不是像传统输入方法中的一样键入“，”。

技术实现要素：

总之，一方面，提供了一种方法，包括：从音频捕获设备接收语音输入；使用处理器将语音输入转换成机器文本；从替代的输入源接收包括至少一个字符的输入；使用处理器识别与机器文本关联的要插入所述至少一个字符的位置；以及使用处理器在所识别的位置处插入所述至少一个字符。

另一方面，提供了一种信息处理设备，包括：音频捕获设备；处理器，该处理器在操作上耦接至音频捕获设备；存储设备，该存储设备存储有指令，所述指令能够由处理器执行以：从音频捕获设备接收语音输入；使用处理器将语音输入转换成机器文本；从替代的输入源接收包括至少一个字符的输入；识别与机器文本关联的要插入所述至少一个字符的位置；以及在所识别的位置处插入所述至少一个字符。

又一方面，提供了一种产品，包括：存储设备，该存储设备存储有能够由处理器执行的代码，所述代码包括：用于从音频捕获设备接收语音输入的代码；用于将语音输入转换成机器文本的代码；用于从替代的输入源接收包括至少一个字符的输入的代码；用于使用处理器识别与机器文本关联的要插入所述至少一个字符的位置的代码；用于使用处理器在所识别的位置处插入所述至少一个字符的代码。

前述是总结性的并且因此可能包含细节的简化、概括及省略；因此，本技术领域的普通技术人员要理解，该总结仅是说明性的并且不意在以任何方式的限制。

为了更好地理解实施方式连同实施方式的其他的和进一步的特征和优点，参考以下结合附图的描述。本发明的范围将在所附权利要求中指出。

附图说明

图1示出了信息处理设备线路的示例。

图2示出了信息处理设备线路的另一示例。

图3示出了在语音识别中插入字符的示例方法。

图4A至图4B示出了在语音识别中插入字符的示例。

具体实施方式

将容易理解的是，可以用除所描述的示例实施方式之外的多种不同的配置来布置和设计如本文附图中大体描述并示出的实施方式的部件。从而，如在附图中示出的示例实施方式的以下更详细的描述，不意在限制所要求保护的实施方式的范围，而只是示例实施方式的代表。

本说明书全文中，对“一个(one)实施方式”或“一种(an)实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包含在至少一个实施方式中。因此，在本说明书全文的各处所出现的短语“在一个实施方式中”或“在一种实施方式中”等未必都指同一实施方式。

而且，在一个或更多个实施方式中，所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中，提供了许多具体的细节以给出对实施方式的透彻的理解。然而，相关领域的技术人员将认识到，可以在没有一个或多个具体细节的情况下实施各种实施方式，或者可以使用其他的方法、部件、材料等来实施各种实施方式。在其他示例中，不再详细地示出或描述公知的结构、材料或操作以避免混淆。

语音转文本技术已经变成向信息处理设备提供输入的日益流行的方式。该技术已经变得更精确，因此，与传统方法例如使用触摸键盘、常规的键盘、小键盘、鼠标等相比，一些用户更喜欢提供语音输入，甚至在用户有能力提供手动输入的情况下，一些用户也更喜欢提供语音输入。由于用户越来越多地使用该技术而不是使用短信来提供文本的较长的主体，则用户会期望准确地给文本的主体加标点。当前语音转文本技术的问题是通常要通过语音命令来输入标点或其他不是字母的字符。换言之，用户必须说与期望的标点例如“感叹号”关联的词语而不是仅键入“！”。通过命令用语插入标点和符号是不自然的并且导致正常的思维过程中断。此外，在一些情况下，语音转文本技术可能不支持一些字符例如表情符的输入。

当前采用的解决方案依赖于基于无声状态来预测标点的软件算法。换言之，如果用户在提供语音输入时停顿，则该技术可以将无声状态识别为逗号或句号。这种解决方案的问题是该方法可能是不准确的。例如，如果用户已经开始思考，但是然后停顿以进一步思考，则该技术可能将这种情况解释为句号的位置，但是句子可能没有完成。在试图解决标点的不准确的放置时，一些语音转文本技术使用上下文以帮助消除该问题，但是这再一次趋于不准确。此外，由软件选择的标点可能不是用户期望的标点。例如，用户可能期望感叹号，但是软件可能反而使用句号。

另一解决方案是使得用户能够使用传统型输入方法例如键盘、触摸键盘、数字键盘、鼠标等，结合语音转文本输入来提供输入。然而，虽然当前方法确实允许用户提供手动输入，但是仅可以在已经显示文本之后提供输入。换言之，因为语音转文本技术在用户讲话与文本显现之间具有延迟时间，则为了使用手动方法提供标点，用户必须等待文本完成显现。这使用户必须等待以及打断了一连串的思路，这会变得非常令人失望。

这些技术问题给用户带来了以下难题：使用传统的语音转文本识别软件可能难以准确地给文本的主体加标点。常规的语音转文本识别软件要求用户提供与期望的标点或符号对应的言语标点或符号听写(dictation)。基于无声状态和词语上下文来预测标点的软件算法不总是精确的。此外，对于现有的语音转文本技术，提供字符例如符号、数字、表情符等而不是字母即使不是不可能也是很困难的。用于使得用户能够提供关于符号的传统输入的现有方法要求用户等待直到语音转文本技术已经完成对语音的处理为止。这些方法中断了用户的思路并且是不方便的。

因此，一种实施方式提供了一种使得用户能够在提供语音输入时提供包括至少一个字符的手动输入的方法。一个实施方式接收语音输入以及开始将语音输入转换成机器文本。当一种实施方式从替代的输入源接收包括至少一个字符的输入时，可以识别机器文本内所述至少一个字符的位置。在一个实施方式中，可以在接收语音输入时接收包括至少一个字符的输入。可替选地或者另外地，可以在一种实施方式将语音转换成机器文本时接收包括至少一个字符的输入。

当接收所述至少一个字符时，一种实施方式可以另外地接收与所述至少一个字符关联的时间戳。在识别用于插入所述至少一个字符的位置时，一种实施方式可以使用与字符关联的时间戳，并且识别语音输入内对应的时间戳。除了时间戳之外，一个实施方式可以使用上下文来确定所述至少一个字符的最佳位置。例如，如果接收到第二输入的时间戳和与语音输入关联的时间戳不匹配，则一种实施方式可以使用另外的信息来确定所述至少一个字符的最佳位置。然后，一种实施方式可以在所识别的位置处插入所述至少一个字符。除了字符的放置之外，一种实施方式可以提供对字符已经位于机器文本内何处的指示。换言之，一种实施方式可以使得用户能够在该实施方式将语音转换成文本时提供手动输入，而不是要求用户等待直到系统已经完成语音输入的处理为止。

通过参考附图可以最好地理解所示出的示例实施方式。下面的描述仅意在作为示例，并且简要示出了某些示例实施方式。

虽然在信息处理设备中可以利用各种其他电路、线路或部件，但是对于智能电话和/或平板电脑线路100来说，图1中示出的示例包括例如在平板电脑或其他移动计算平台中发现的片上系统设计。软件和(一个或多个)处理器被组合在单芯片110中。处理器包括现有技术中众所周知的内部运算单元、寄存器、缓存内存、总线、I/O端口等。内部总线等取决于不同的供应商，但基本上所有外围设备(120)可以附接至单芯片110。线路100将处理器、存储器控制器以及I/O控制器集线器全部组合到单芯片110中。并且，这种类型的系统100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。

存在有(一个或多个)电力管理芯片130，例如电池管理单元BMU，该电池管理单元BMU管理例如经由可再充电电池140供给的电力，可再充电电池140可以通过连接到电源(未示出)来被充电。在至少一个设计中，单芯片如110用于提供类似BIOS的功能和DRAM存储器。

系统100通常包括用于连接到各种网络(例如电信网络设备和无线因特网设备，如接入点)的WWAN收发器150和WLAN收发器160中的一个或多个。此外，设备120通常包括例如音频输入设备如麦克风、图像传感器如摄像头，等等。系统100通常包括用于数据输入和显示/呈现的触摸屏170。系统100通常还包括各种存储器设备，例如闪存存储器180和SDRAM 190。

图2描绘了信息处理设备电路、线路或部件的另一示例的框图。图2中描绘的示例可以对应于计算系统，例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人电脑或其他设备。根据此处的描述明显的是，实施方式可以包括图2中示出的示例的特征中的仅一些特征或其他特征。

图2的示例包括所谓的芯片组210(一组一起工作的集成电路或芯片、芯片组)，芯片组210具有可以取决于制造商(例如INTEL、AMD、ARM等)而变化的架构。INTEL是英特尔公司在美国和其他国家的注册商标。AMD是超微半导体公司在美国和其他国家的注册商标。ARM是安谋公司(ARM Holdings plc)在美国和其他国家的注册商标。芯片组210的架构包括核和存储器控制组220以及I/O控制器集线器250，I/O控制器集线器250经由直接管理接口(DMI)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中，DMI 242是芯片到芯片的接口(有时也被称为是“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(FSB)224交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226；注意，组220的部件可以被集成在代替传统的“北桥”式架构的芯片中。一个或更多个处理器222包括现有技术中众所周知的内部运算单元、寄存器、缓存内存、总线、I/O端口等。

在图2中，存储器控制器集线器226与存储器240对接(例如，为可以被称为“系统存储器”或“存储器”的一类RAM提供支持)。存储器控制器集线器226还包括用于显示设备292(例如CRT、平板、触摸屏等)的低压差分信号(LVDS)接口232。块238包括可以经由LVDS接口232来支持的一些技术(例如，串行数字视频、HDMI/DVI(高清晰度多媒体接口/数字视频接口)、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的PCI-express接口(PCI-E)234。

在图2中，I/O集线器控制器250包括SATA接口251(例如，用于HDD(硬盘驱动器)、SDD(固态硬盘)280等)、PCI-E接口252(例如，用于无线连接282)、USB接口253(例如用于设备284如数字转换器、键盘、鼠标、摄像头、电话、麦克风、存储器、其他连接设备等)、网络接口254(例如LAN)、GPIO(通用输入输出)接口255、LPC接口270(用于ASIC(专用集成电路)271、TPM(可信平台模块)272、超级I/O 273、固件集线器274、BIOS支持275以及各种类型的存储器276如ROM(只读存储器)277、闪存278和NVRAM(非易失性随机存储器)279)、电力管理接口261、时钟发生器接口262、音频接口263(例如，用于扬声器294)、TCO接口264、系统管理总线接口265以及可以包括BIOS 268和启动代码290的SPI闪存266。I/O集线器控制器250可以包括千兆以太网支持。

系统在通电时可以被配置成执行在SPI闪存266内存储的、用于BIOS 268的启动代码290，此后，在一个或多个操作系统和应用程序软件(例如，存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多种位置中的任何位置处，并且可以例如根据BIOS 268的指令来访问。如本文所述，设备可以包括比在图2的系统中示出的特征更少或者更多的特征。

信息处理设备线路，如在图1中或图2中所描画的示例，通常可以应用于例如平板电脑、智能电话、个人计算机设备等的设备中，和/或可以应用于可用来处理语音输入的电子设备中。例如，图1中所描画的线路可以在平板电脑或智能电话实施方式中实现，然而，图2中所描画的线路可以在个人计算机实施方式中实现。

现在参照图3，在301处，一种实施方式可以从音频捕获设备(例如，麦克风等)接收语音输入。例如，用户可以提供用于听写的语音输入或者提供语音输入作为至设备的命令。为了接收语音输入，设备可能在运行语音转文本应用。作为示例，用户可能已经选择了向设备指示用户正在提供待由装置听写的语音输入的按钮。使用语音转文本技术或软件，一种实施方式可以在302处使用处理器开始将语音输入转换成机器文本。可以使用现有技术中已知的语音转文本技术或软件来完成转换。

在303处，一种实施方式可以从替代的输入源(例如，常规键盘、触摸键盘、数字键盘、鼠标等)接收包括至少一个字符的输入。所述至少一个字符可以包括：字母、表情符、数字、符号、标点等。如果用户在运行语音转文本应用，则可以在该应用仍活动时提供字符。换言之，常规的语音转文本应用和软件包要求用户停止应用以使用不同的方法来提供输入。该一种实施方式不是要求用户停止应用，而是可以在应用或软件保持活动时纳入所提供的手动输入。

可以在用户提供语音输入时接收输入。例如，用户可以说“你好吗”，然后在触摸屏输入处写下“？”，然后继续提供语音输入。换言之，当提供语音输入时，用户可以在触摸屏输入区域写下“，”，而不是像语音转文本技术可能需要的那样提供标点听写(例如，说“逗号”)。可替选地或另外地，可以在语音转文本技术将语音输入转换成机器文本时提供输入。例如，当语音转文本技术转换文本时，用户可能已经讲了“嗨我的名字是Jane”，用户可能决定其想要在“嗨”之后加逗号。在语音被转换的同时，用户可以通过传统键盘提供“，”。

当接收语音输入，将语音转换成机器文本，以及接收字符输入时，一种实施方式可以另外地接收时间戳，或者将时间戳与数据关联起来。例如，当用户提供语音输入时，一种实施方式可以识别与词语中的每个词语或所提供的语音输入中的每个语音输入相关联的时间戳。可以在设备上本地地创建、识别和/或存储时间戳。可替选地，可以例如在云存储设备上远程地创建、识别、和/或存储时间戳。

在304处，一种实施方式可以识别与机器文本关联的要插入所述至少一个字符的位置。在一个实施方式中，可以使用与所提供的输入相关联的时间戳来识别所述位置。作为示例，参照图4A，用户可以提供语音输入401，语音输入401陈述“今天是星期五，我以为今天只是星期四”。在说了“星期五”之后，用户可以提供手动输入402“？”，以及在说了“星期四”之后，用户可以提供手动输入402“！！！”。手动输入402“？”可以与第一时间戳403关联，第一时间戳403对应于语音输入401中的第一时间戳403，语音输入401中的第一时间戳403在所讲的话“星期五”之后。手动输入402“！！！”可以与第二时间戳404关联，第二时间戳404对应于语音输入401中的第二时间戳404，语音输入401中的第二时间戳404在所讲的话“星期四”之后。

当使用用于位置识别的时间戳时，应当从相同位置获得针对每次输入或每次转换的时间戳，以确保时间戳在输入之间是一致的。例如，如果从本地存储位置接收与字符输入关联的时间戳，则也应当从相同的本地存储位置接收与语音输入关联的时间戳。然而，如果本地存储位置和远程存储位置已经同步了时间戳，则可以从多个位置得到时间戳。

一个实施方式可以使用语音输入和/或手动输入的另外的特征来识别位置。作为示例，一个实施方式可以使用与语音输入关联的上下文特征来识别用于插入字符的位置。上下文特征的这种使用可以与使用基于上下文的语音转文本技术确定标点的当前方法类似。例如，如果用户提供没有准确地与语音输入内的时间戳对应的手动输入(例如，用户在插入的准确位置之前一些或之后一些提供手动输入)，则一种实施方式可以使用另外的方法来识别插入字符的准确位置。如果另外的特征引起彼此之间的冲突，则一种实施方式可以默认仅使用时间戳来识别插入的位置。

如果该技术已经将语音转换成机器输入，则用户仍然能够提供用于字符插入的输入。例如，如果一种实施方式已经将“你要来”转换成机器文本，但是用户想要添加问号，则用户可以使用手动方法选择词语“来”以及提供“？”输入。选择不一定意味着用户选择整个词语，而是可以包括用户将光标移动至期望的插入位置。在选择词语中，用户不必选择整个词语，用户也不需要将光标移动至插入的准确地点。例如，用户不必将光标置于“来”的末尾，而是用户可以只触摸词语“来”，以及一种实施方式可以确定插入的最合乎逻辑的位置是在词语的末尾而不是在词语的中间。

可以在用户已经停止提供语音输入之后提供输入，或者可以在用户继续提供语音输入时提供输入。例如，用户可以说“你要来”，以及在选择词语“来”并且提供“？”输入时继续讲话。换言之，用户不必停止语音转文本应用来提供另外的输入。这还可以用来校正不适当的经转换的语音输入。例如，用户可能用“？！？”来结束句子，但是系统仅提供了“？”。用户可以选择“？”，并且提供另外的输入来修改机器文本。

如果一种实施方式在304处不能识别插入字符的位置，则这种方式可以在306处不采取动作。可替选地，一种实施方式可以向用户通知不能识别位置，以及使得用户能够提供用于插入字符的正确的位置。如果一种实施方式不能准确地确定用户已经提供的字符，则也可以不采取动作或向用户通知不能识别位置。例如，如果一种实施方式不能确定用户是否提供了“；”或笑脸表情符号，则这种实施方式可以在306处不采取动作，或者可以向用户提示另外的输入。

然而，如果一种实施方式在304处可以识别位置，则这种实施方式可以在305处在所识别的位置处插入至少一个字符。例如，参照图4B，在如结合图4A中说明的识别手动输入的位置之后，一种实施方式可以将字符插入机器文本中以及产生如在图4B中所示的输出。当使用触摸输入时，在一种实施方式已经将字符插入到机器文本中之后，由用户提供的书写字符可以被从触摸表面和/或触摸显示装置移除。

一种实施方式可以另外地向用户提供已经插入字符的通知。例如，一种实施方式可以突出字符，改变字符的颜色，把字符圈起来，或者提供所插入字符的指示。一种实施方式可以另外地使得用户能够确认字符的位置。当没有接收到关于字符的位置的用户输入时，一种实施方式可以维持字符的位置。可替选地，一种实施方式可以移除字符插入。可以在系统内默认地设置该动作(即，字符位置是否被维持或被移除)，以及可以由用户提供该动作。

因此，本文中描述的各种实施方式表示对常规的语音转文本技术的技术改进。使用本文中描述的技术，用户可以在语音输入的同时提供手动输入，或者可以在系统将语音输入转换成机器文本时提供手动输入。因此，使用本文中描述的方法和系统，用户可以在使用语音转文本技术时提供更自然并且更少引起混乱的、具有符号、表情符、标点、数字、字母以及其他字符的增强语音输入。

本领域的普通技术人员将理解的是，本发明的各个方面可以实施为系统、方法或设备程序产品。因此，本发明的各个方面可以采用完全硬件实施方式的形式或采用包括软件的实施方式的形式，这些形式在本文中可以全部统称为“电路”、“模块”或“系统”。而且，本发明的各个方面可以采用包含在一个或多个设备可读介质中的设备程序产品的形式，该一个或多个设备可读介质包含有设备可读程序代码。

应当注意的是，本文中所描述的各种功能可以使用由处理器执行的存储在设备可读存储介质(例如非信号存储设备)上的指令来实现。存储设备可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置或设备，或前述的任何适当的组合。存储介质的更多的具体示例包括如下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存存储器)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储设备、磁存储设备，或前述的任何适当的组合。在本文档的上下文中，存储介质不是信号，并且“非暂时的”包括除信号介质之外的全部介质。

可以使用任何适当的介质，包括但不限于无线、有线、光缆、RF等或前述的任何适当的组合，来传输在存储介质上所包含的程序代码。

可以以一种或多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包部分地在一个设备上且部分地在另一设备上执行或完全在其他设备上执行。在一些情况下，可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN))来连接设备，或可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接例如近场通信或通过硬线连接(例如通过USB连接)来进行连接。

本文参考示出了根据各种示例实施方式的示例方法、设备和程序产品的附图来描述示例实施方式。要理解的是，动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给设备的处理器、专用信息处理设备的处理器或其他可编程数据处理设备的处理器以产生机器，使得经由设备的处理器执行的指令实现指定的功能/动作。

值得注意的是，虽然在附图中使用了特定的块，并且已经示出了块的特定顺序，但这些都是非限制性的示例。由于明确说明的示例仅用于描述的目的，而不应被视为限制，所以在某些情况下，可以组合两个或更多个块，可以将块分成两个或更多个块，或者可以按需要将某些块重新排序或重新组织。

如本文所用的那样，除非另行清楚地指明，否则单数“一个(a)”和“一个(an)”可以被解释为包括复数“一个或多个”。

给出本公开内容是为了说明和描述的目的，而非意在是穷举或限制。对本领域普通技术人员来说，许多修改和变化是明显的。为了说明原理和实际应用以及使得本领域其他技术人员能够理解具有适于预期的特定用途的各种修改的各种实施方式的公开内容，选择并描述了示例实施方式。

因此，尽管本文参考附图已经描述了说明性的示例实施方式，但要理解的是，这种描述不是限制性的，并且在不偏离本公开内容的范围或精神的情况下本领域技术人员可以作出各种其他变化和修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王松;张健邦;钱明;李健;
技术所有人：联想（新加坡）私人有限公司;
我是此专利的发明人

上一篇：基于聚类分析的突发事件在线群体行为检测方法与制造工艺
上一篇：新词发现中字符串的处理方法及装置与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。