一种基于声波感知的文本输入方法与流程

文档序号：16587328发布日期：2019-01-14 18:37阅读：420来源：国知局

本发明涉及人工智能技术领域，特别是涉及一种基于声波感知的文本输入方法。

背景技术：

随着人工智能技术的不断发展，智能手机、平板电脑等移动终端在用户的日常生活中发挥着越来越重要的作用，例如，查询信息、购买商品、与其他用户通讯等。用户在使用移动终端的过程中，很多时候需要通过软键盘在移动终端的屏幕上输入文字、单词等内容，然而，由于通常情况下，移动终端的显示屏的尺寸较小，从而导致通过在移动终端的显示屏上显示的软键盘进行输入的操作非常不方便。尤其是对于老年人来说，在输入过程中更容易出错。此外，随着可穿戴设备的快速发展，移动终端更加趋于便携化、小型化，从而进一步加剧了这个问题。

因此，当前亟需一种不依赖于显示屏、有效的文本输入方法。

技术实现要素：

本发明实施例的目的在于提供一种基于声波感知的文本输入方法、装置、移动终端及服务器，以实现不依赖显示屏进行有效的文本输入。

具体技术方案如下：

第一方面，本发明实施例提供了一种基于声波感知的文本输入方法，应用于移动终端，所述方法包括：

获取待输入文本对应的音频信息，其中，所述音频信息为：用户在所述移动终端的显示屏以外的对象上，书写所述待输入文本时所产生的声音数据；

对所述音频信息进行分割，得到所述待输入文本中每个待识别字母的音频片段；

将所述待输入文本的类型、所述每个待识别字母的音频片段和所述每个待识别字母的音频片段在所述音频信息中的排列顺序发送给服务器，以使得所述服务器基于所述待输入文本的类型、所述每个待识别字母的音频片段和所述每个待识别字母的音频片段在所述音频信息中的排列顺序，确定所述待输入文本的输入结果；

接收所述服务器反馈的所述输入结果，并基于所述输入结果，在所述移动终端的显示屏中显示所述待输入文本对应的文本信息。

第二方面，本发明实施例提供了另一种基于声波感知的文本输入方法，应用于服务器，所述方法包括：

接收移动终端发送的待输入文本的类型、所述待输入文本中每个待识别字母的音频片段和所述每个待识别字母的音频片段在音频信息中的排列顺序，其中，所述音频信息为：用户在所述移动终端的显示屏以外的对象上，书写所述待输入文本时所产生的声音数据；

基于所述待输入文本的类型、所述待输入文本中每个待识别字母的音频片段和所述每个待识别字母的音频片段在音频信息中的排列顺序，确定所述待输入文本的输入结果；

将所述输入结果反馈给所述移动终端。

第三方面，本发明实施例提供了一种基于声波感知的文本输入装置，应用于移动终端，所述装置包括：

音频信息获取模块，用于获取待输入文本对应的音频信息，其中，所述音频信息为：用户在所述移动终端的显示屏以外的对象上，书写所述待输入文本时所产生的声音数据；

音频信息分割模块，用于对所述音频信息进行分割，得到所述待输入文本中每个待识别字母的音频片段；

音频信息发送模块，用于将所述待输入文本的类型、所述每个待识别字母的音频片段和所述每个待识别字母的音频片段在所述音频信息中的排列顺序发送给服务器，以使得所述服务器基于所述待输入文本的类型、所述每个待识别字母的音频片段和所述每个待识别字母的音频片段在所述音频信息中的排列顺序，确定所述待输入文本的输入结果；

文本显示模块，用于接收所述服务器反馈的所述输入结果，并基于所述输入结果，在所述移动终端的显示屏中显示所述待输入文本对应的单词。

第四方面，本发明实施例提供了另一种基于声波感知的文本输入装置，其特征在于，应用于服务器，所述装置包括：

音频信息接收模块，用于接收移动终端发送的待输入文本的类型、所述待输入文本中每个待识别字母的音频片段和所述每个待识别字母的音频片段在音频信息中的排列顺序，其中，所述音频信息为：用户在所述移动终端的显示屏以外的对象上，书写所述待输入文本时所产生的声音数据；

输入结果确定模块，用于基于所述待输入文本的类型、所述待输入文本中每个待识别字母的音频片段和所述每个待识别字母的音频片段在音频信息中的排列顺序，确定所述待输入文本的输入结果；

输入结果反馈模块，用于将所述输入结果反馈给所述移动终端。

第五方面，本发明实施例提供了一种移动终端，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面提供的一种基于声波感知的文本输入方法中任一所述的方法步骤。

第六方面，本发明实施例提供了一种服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第二方面提供的一种基于声波感知的文本输入方法中任一所述的方法步骤。

第七方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的一种基于声波感知的文本输入方法中任一所述的方法步骤。

第八方面，本发明实施例提供了另一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第二方面提供的一种基于声波感知的文本输入方法中任一所述的方法步骤。

以上可见，本发明实施例提供的方案中，用户在移动终端中输入待输入文本时，不需要对移动终端的显示屏上显示的软键盘进行操作，而是可以在移动终端显示屏以外的对象上书写待输入文本，通过声波感知，移动终端便可以获取用户书写时产生的音频信息，进而，移动终端便可以对该音频信息进行处理，并将处理结果发送给服务器。服务器在接收到上述处理结果后，便可以通过进一步处理得到待输入文本的输入结果，并反馈给移动终端。这样，移动终端便可以基于接收到的输入结果在显示屏中显示待输入文本的文本信息。因此，用户在移动终端上输入待输入文本时，可以实现不依赖显示屏进行有效的文本输入。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的应用于移动终端的第一种基于声波感知的文本输入方法的流程示意图；

图2为本发明实施例提供的一种按照由小到大的帧号顺序，依次确定各个音频帧的类别的方式的流程示意图；

图3为本发明实施例提供的应用于服务器的第二种基于声波感知的文本输入方法的流程示意图；

图4为本发明实施例提供的应用于移动终端的第一种基于声波感知的文本输入装置的结构示意图；

图5为本发明实施例提供的应用于服务器的第二种基于声波感知的文本输入装置的结构示意图；

图6为本发明实施例提供的一种移动终端的结构示意图；

图7为本发明实施例提供的一种服务器的结构示意图。

具体实现方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前，由于移动终端的显示屏的尺寸较小，从而导致通过在移动终端的显示屏上显示的软键盘进行输入的操作非常不方便。尤其是对于老年人来说，在输入过程中更容易出错。此外，随着可穿戴设备的快速发展，移动终端更加趋于便携化、小型化，从而进一步加剧了这个问题。为了解决现有技术中存在的问题，本发明实施例提供了一种基于声波感知的文本输入方法、装置、移动终端和服务器。

下面对本发明实施例提供的应用于移动终端的第一种基于声波感知的文本输入方法进行介绍。

需要说明的是，在本发明实施例中移动终端可以是手机、平板电脑等任一可以进行文本输入的移动终端。并且，用于实现本发明实施例提供的一种应用于移动终端的基于声波感知的文本输入方法的功能软件可以是现有的客户端软件的插件，也可以是专门的声波感知客户端，这都是合理的。

图1为本发明实施例提供的一种应用于移动终端的基于声波感知的文本输入方法的流程示意图，如图1所示，该方法可以包括如下步骤：

s101：获取待输入文本对应的音频信息。

其中，音频信息为：用户在移动终端的显示屏以外的对象上，书写待输入文本时所产生的声音数据。

当用户想要在移动终端的显示屏上输入待输入文本时，用户可以在移动终端的显示屏以外的对象上书写该待输入文本，这样，移动终端便可以获取用户书写待输入文本时产生的音频信息。

需要说明的是，在本发明实施例中，待输入文本可以为字母型文本，也就是说，待输入文本通常是由一个或多个字母组成的，例如，英文、法文、意大利文等。

在本发明实施例中，移动终端的显示屏以外的对象可以是放置移动终端的物体，这种情况下，用户书写待输入文本时可以使用铅笔、钢笔、圆珠笔等常用的文具，例如，当移动终端放置在桌面上时，目标对象便可以是该桌面，用户使用铅笔在桌面上书写待输入文本。也可以是特定的、用户用于书写待输入文本的设备，这种情况下，用户用来书写待输入文本的设备也可以是特定的设备，例如，与实现本发明实施例提供的基于声波感知的文本输入方法配套的专门用于书写待输入文本的设备。这都是合理的。

当用户在移动终端的显示屏以外的对象上书写待输入文本时，移动终端可以通过多种方式获取此时产生的音频信号，例如，电子设备可以通过内置的麦克风捕捉产生的音频信号；而当用户使用特定设备来书写待输入文本时，可以是该特定设备捕捉产生的音频信号，进而，通过与移动终端的通信连接将该音频信号发送给移动终端。这都是合理的。

在本发明实施例中，不对目标对象的具体形式、用户书写待输入单词的具体方式以及移动终端获取音频信息的具体方式进行限定。

例如，移动终端可以放置在桌面上，用户可以用铅笔移动终端旁边的桌面上书写一个英文单词，移动终端便可以通过内置的麦克风去捕捉用户书写该单词时，铅笔与桌面的摩擦声，从而获得音频信息。

s102：对音频信息进行分割，得到待输入文本中每个待识别字母的音频片段；

在获取了音频信息后，移动终端便可以对音频信息进行分割，由于在上述步骤s101中，用户书写的待输入文本是由一个或多个字母构成的，这些字母可以称作待识别字母，因此，移动终端便可以将获取的音频信息分割成待输入文本中每个待识别字母的音频片段。

为了行文清晰，后续会对上述步骤s102进行具体介绍。

s103：将待输入文本的类型、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序发送给服务器，以使得服务器基于待输入文本的类型、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果；

当用户想要在移动终端的显示屏上输入待输入文本时，移动终端的显示屏上需要显示待输入文本的输入区域。这样，用户便可以通过操作将光标置于该输入区域内，例如，用户可以点击该输入区域中的空白区域，从而，移动终端会根据显示屏用户操作获得待输入文本的类型。

可选的，待输入文本的类型可以密码，也可以为单词，还可以是其他类型，这都是合理的。

例如，当用户需要在手机上登录微信时，用户通过点击手机显示屏中显示的微信密码输入框中的空白区域将光标置于该框内，这样，手机便可以获得待输入文本的类型为密码；

又例如，当用户需要在手机上搜索信息时，用户通过点击手机显示屏中显示的搜索框中的空白区域将光标至于该框内，这样，手机便可以获得待输入文本的类型为单词。

在得到待输入文本的类型和每个待识别字母的音频片段后，移动终端可以将待输入文本的类型、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序发送给服务器。这样，服务器便可以基于待输入文本的类型、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果。

其中，由于用户在书写待输入文本时，是按照该待输入文本中所包括的各个待识别字母的顺序从第一个待识别字母开始书写的，从而在待输入文本中位置靠前的字母的书写顺序靠前，则在上述音频信息中，书写该字母时产生的声音对应的信息的时间也就靠前。

因此，上述步骤s102中，每个待识别字母的音频片段在音频信息中的排列顺序与该待识别字母在待识别文本中的顺序是对应的。即从待输入文本的第一个字母开始，一个待识别字母是待输入文本中的第几个字母，则从音频信息的产生时间开始，该待识别字母的音频片段即为该音频信息中的第几个音频片段。

s104：接收服务器反馈的输入结果，并基于输入结果，在移动终端的显示屏中显示待输入文本对应的文本信息。

可以理解的，在确定待输入文本的输入结果后，服务器可以将该输入结果反馈给移动终端。这样，移动终端便可以接收该输入结果，并基于该输入结果，在移动终端的显示屏中显示上述待输入文本对应的文本信息。

其中，可以在移动终端的显示屏中的预设位置显示上述文本信息，该预设位置可以根据实际应用中的情况进行设定。例如，显示屏下方三分之一处，或者用户选定的输入框中等。这都是合理的。

可选的，一种具体实现方式中，当服务器反馈的输入结果是一个字母串时，移动终端便可以在显示屏中显示该字母串。

可选的，一种具体实现方式中，当服务器反馈的输入结果是多个字母串时，移动终端可以首先在显示屏中显示该多个字母串，然后接收用户发出的选择指令，该选择指令中包括上述多个字母串的一个字母串的标识，则移动终端便可以根据该标识在显示屏上显示与该标识对应的字母串，并不再显示上述多个字母串中的其他字母串，从而完成上述步骤s104。

下面，对上述步骤s102，对音频信息进行分割，得到待输入文本中每个待识别字母的音频片段，进行举例说明：

具体的，上述步骤s102可以包括：

步骤a1：将音频信息划分为多个音频帧，并分别为每个音频帧添加帧号，

其中，时间在前的音频帧的帧号小于时间在后的音频帧的帧号；

移动终端可以按照上述音频信息产生的时间，从上述音频信息中最先产生的信息开始，将上述音频信息划分为多个音频帧，并按照产生时间的先后顺序分别为每个音频帧添加帧号，从而使得时间在前的音频帧的帧号小于时间在后的音频帧的帧号。

其中，每个音频帧的帧号可以从0开始，依次增加1；也可以从1开始，依次增加1；还可以从1开始，依次增加2；甚至可以没有确定增加量，只要满足时间在前的音频帧的帧号小于时间在后的音频帧的帧号即可，这都是合理的。

例如，当移动终端通过内置的麦克风捕捉到音频信号时，移动终端便可以按照捕捉该音频信号的时间，从最开始捕捉到的信号开始将该音频信号划分为音频帧，并为捕捉时间最早的音频帧添加帧号1，为该帧的后一帧添加帧号2，并以此类推，直至为捕捉时间最晚的音频帧添加帧号。

步骤a2：按照由小到大的帧号顺序，依次确定各个音频帧的类别；

在为每个划分后的音频帧添加帧号后，移动终端便可以按照由小到大的帧号顺序，依次确定各个音频帧的类别。

可以理解的，移动终端获取的上述音频信息，并不是从用户开始书写待输入文本的时刻开始的，也就是说，用户开始书写待输入文本的时刻与音频信息的开始时刻并不完全相同。因此，在上述音频信息中，从该音频信息的起始时刻开始的预设时间段的音频段内没有进行书写、只有环境背景噪音。其中，该预设时间段通常可以为1s，当然，根据实际应用中的不同情况，该预设时间段的时长也可以为其他值，这都是合理的。

因此，上述音频信息可以包括两类音频段，一类为静音段，即音频信息的起始时刻开始的预设时间内中没有进行书写、只存在环境背景噪音的音频段，则处于静音段的音频帧的属性即为静音帧，显然，上述多个音频帧中的第一个音频帧，即帧号最小的音频帧的属性为静音帧；另一类为语音段，即音频信息中书写待识别单词的音频段，则处于语音段的音频帧的属性即为语音帧。显然，上述音频信息中还存在由静音段向语音段转变的音频帧，则这些音频帧的属性即为过渡帧。

其中，对于上述音频信息中的语音段而言，每个语音段是由一个起始帧、一个结束帧，以及一个或多个处于该起始帧与该结束帧之间的语音帧构成的。

因此，任一音频帧的类别可以为：第一类别、第二类别或第三类别，其中，第一类别为：音频信息中的语音段的起始帧，第二类别为：音频信息中的语音段的结束帧，第三类别为：音频信息中除语音段的起始帧和语音段的结束帧以外的类别。

为了行文清晰，后续会对上述步骤a2进行具体介绍。

步骤a3：基于所确定的类别为第一类别和第二类别的音频帧的帧号，将音频信息划分为多个语音段，并基于多个语音段确定待输入文本中每个待识别字母的音频片段。

在确定各个音频帧的类别后，移动终端便可以基于所确定的类别为第一类别和第二类别的音频帧的帧号，将音频信息划分为多个语音段，进而基于多个语音段确定待输入文本中每个待识别字母的音频片段。

其中，本发明实施例可以采用多种方式，实现基于多个语音段确定待输入文本中每个待识别字母的音频片段，对此，本发明实施例不作具体限定。

可选的，一种具体实现方式中，上述步骤a3中，基于多个语音段确定待输入文本中每个待识别字母的音频片段可以为：

将多个语音段中的每个语音段确定为待输入文本中一个待识别字母的音频片段。

在本实现方式中，移动终端可以将多个语言段中的每个与语音段确定为待输入文本中一个待识别字母的音频片段。并且每个待识别字母的音频片段在音频信息中的排列顺序与该待识别字母在待识别文本中的顺序是对应的。

可选的，另一种具体实现方式中，上述步骤a3中，基于多个语音段确定待输入文本中每个待识别字母的音频片段可以为：

基于预设的合并规则，将多个语音段合并为多个音频片段，将每个音频片段确定为待输入文本中一个待识别字母的音频片段。

由于用户在书写某些待识别字母时，不能一笔完成，因此，该待识别字母的音频片段中会存在多个语音段，例如，法语中经常使用的字母“à”。

这样，在本实现方式中，移动终端便可以基于预设的合并规则，将多个语音段进行合并，得到合并后的多个语音片段，并将每个音频片段确定为待输入文本中一个待识别字母的音频片段。且每个待识别字母的音频片段在音频信息中的排列顺序与该待识别字母在待识别文本中的顺序是对应的。

当然，在本发明实施例中不对上述实现方式中的预设规则进行具体限定。

具体的，在本实现方式中，可以判断两个语音段之间的时间间隔是否小于预设时长，也就是，时间在前的语音段的结束帧的产生时间与时间在后的语音段的起始帧的产生时间之间的间隔是否小于预设时长。当小于预设时长时，便可以将这个两个语音段进行合并，当不小于预设时长时，则不进行合并。这样，当经过多次合并后得到的每两个语音段之间的时间间隔均不小于预设时长时，则可以将合并后的多个语音段确定为多个音频片段。

其中，上述预设时长通常可以为0.6s，当然，该预设时长也可以是其他数值，这都是合理的。

此外，根据上述步骤a2中的说明，一个语音段是由连续的多个音频帧构成的。而在上述步骤a1中，为各个音频帧添加帧号时，时间在前的音频帧的帧号小于时间在后的音频帧的帧号。因此，对于上述音频信息中的两个语音段而言，时间在前的语音段的结束帧的帧号，小于时间在后的语音段的起始帧的帧号。

因此，上述步骤a3中，移动终端基于所确定的类别为第一类别和第二类别的音频帧的帧号，将音频信息划分为多个语音段的方式可以是：

步骤b1：将所确定的类别为第一类别的音频帧的帧号中每个帧号作为目标起始帧号；

步骤b2：针对每一目标起始帧号，在所确定的类别为第二类别的音频帧的帧号中确定与该目标起始帧号差值最小的帧号，作为该目标起始帧号的目标结束帧号；

步骤b3：针对每一个目标起始帧号，确定该目标起始帧号对应的音频帧、该目标起始帧号的目标结束帧号对应的音频帧，以及二者之间的帧号对应的音频帧为一个语音段。

例如，一个音频信息被划分为10个语音帧，其帧号分别为1-10，其中，所确定的类别为第一类别的音频帧的帧号为2和7，所确定的类别为第二类别的音频帧的帧号为5和9。

则当目标起始帧号为2时，便可以确定该目标起始帧号的目标结束帧号为5，进而，上述音频信息中帧号为2、3、4和5的音频帧构成一个语音段；当目标起始帧号为7时，便可以确定该目标起始帧号的目标结束帧号为9，进而，上述音频信息中帧号为7、8和9的音频帧构成一个语音段；因此，该音频信息可以被划分为两个语音段。

当然，移动终端也可以其他基于所确定的类别为第一类别和第二类别的音频帧的帧号，将音频信息划分为多个语音段的方式，对此，本发明实施例不作具体限定。

需要说明的是，上述步骤a1-a3仅是本发明实施例实现上述步骤s102的一种实施方式，除该实施方式外意外，能够实现上述步骤s102的方式均属于本发明实施例的保护范围。

下面，对上述步骤a2，按照由小到大的帧号顺序，依次确定各个音频帧的类别，进行举例说明。

可选的，一种具体实现方式中，上述步骤a2可以为：按照由小到大的帧号顺序，依次对各个音频帧执行类别分析处理，得到各个音频帧的类别；

其中，根据上述步骤a2中对各个音频帧的属性和类别的说明，音频帧被分为了静音帧、过渡帧和语音帧三个属性，以及第一类别、第二类别和第三类别三个类别。而根据各个音频帧的属性不同，对各个音频帧执行类别分析处理的方式也不同。

需要说明的是，多个音频帧中的第一个音频帧的属性为静音帧，也就是说上述多个音频帧中帧号最小的音频帧的属性为静音帧；多个音频帧中的除第一个音频帧以外的音频帧的属性基于上一音频帧所确定。

具体的，图2(a)为当一音频帧的属性为静音帧或过渡帧时，对该音频帧执行类别分析处理的方式的流程示意图。图2(b)为当一音频帧的属性为语音帧时，对该音频帧执行类别分析的方式的流程图。

如图2(a)所示，当一音频帧的属性为静音帧或过渡帧时，对该音频帧执行类别分析处理，可以包括如下步骤：

s201：判断该音频帧的短时能量是否大于预设的第一阈值，如果是，执行s202，否则，执行s203；

当一个音频帧的属性为静音帧或过渡帧时，移动终端便可以判断该音频帧的短时能量是否大于预设的第一阈值，如果是，则执行s202，否则，则执行s203。

其中，每个音频帧的短时能量(short-timeenergy，ste)可以通过以下公式计算得到：

其中，x(n)表示上述音频信息中第n时刻产生的音频信息信号，t为该音频帧的开始时刻，l为该音频帧的帧长，ste为计算得到的该音频帧的短时能量。

此外，预设的第一阈值可以为：静音段的所有音频帧的短时能量的标准差的1/2与静音段的所有音频帧的短时能量的均值的和。当然，根据实际应用中的不同情况，预设的第一阈值也可以是其他数值，这都是合理的。

s202：确定该音频帧的类别为第一类别，并记录该音频帧的帧号，确定预设的第一数值为零，预设的第二数值加1，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为语音帧；

其中，预设的第一数值和预设的第二数值并没有固定的实际数值，二者均作为计数单位使用。预设的第一数值可以理解为：当前静音段所包含的音频帧的帧数，预设的第二数值可以理解为：当前语音段所包含的音频帧的帧数。需要说明的是，当前静音段可以理解为：当该音频帧以及该音频帧之前的一个或连续多个音频帧的属性均为静音帧时，该音频帧以及该音频帧之前的一个或连续多个音频帧构成的音频段，当前语音段可以理解为：当该音频帧以及该音频帧之前的一个或连续多个音频帧的属性均为语音帧时，该音频帧以及该音频帧之前的一个或连续多个音频帧构成的音频段。

当该音频帧的短时能量大于预设的第一阈值时，移动终端便可以将该音频确定为第一类别的音频帧，即语音段的起始帧。这样，移动终端便可以记录该语音帧的帧号。

此外，移动终端还可以在预设的第二数值的当前数值上加1，得到新的第二数值，并将第一数值清零。同时，移动终端可以判断该音频帧是否为最后一个音频帧，即该音频帧是否为上述多个音频帧中帧号最大的音频帧，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为语音帧。

显然，当对该音频帧的下一音频帧进行类别分析处理时，需要执行图2(b)中所示的步骤，即首先执行下面的步骤s206。

s203：判断该音频帧的短时能量是否大于预设的第二阈值，如果是，执行s204，否则，执行s205；

当该音频帧的短时能量不大于预设的第二阈值时，此时，移动终端不能确定该音频帧的类别，需要进一步判断该音频帧的短时能量是否大于预设的第二阈值。如果是，则执行s204，否则，则执行s205。

其中，预设的第二阈值可以为：静音段的所有音频帧的短时能量的均值。当然，根据实际应用中的不同情况，预设的第二阈值也可以是其他数值，这都是合理的。需要说明的是，第二阈值小于上述步骤s201中的第一阈值。

s204：确定该音频帧的类别为第三类别，确定第一数值不变，第二数值为零，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为过渡帧；

当该音频帧的短时能量大于预设的第二阈值时，移动终端便可以将该音频帧确定为第三类别的音频帧，即语音段内位于起始帧与结束帧之间的音频帧。这样，移动终端便可以不记录该音频帧的帧号。

此外，移动终端还可以保持第一数值不变，依旧为当前数值，并将第二数值清零。同时，移动终端可以判断该音频帧是否为最后一个音频帧，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为过渡帧。

显然，当对该音频帧的下一音频帧进行类别分析处理时，需要返回执行上述步骤s201。

s205：确定该音频帧的类别为第三类别，确定第一数值和第二数值为零，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为静音帧；

当该音频帧的短时能量不大于预设的第二阈值时，移动终端便可以将该音频帧确定为第三类别的音频帧，这样，移动终端便可以不记录该音频帧的帧号。

此外，移动终端还可以将第一数值和第二数值均清零。同时，移动终端可以判断该音频帧是否为最后一个音频帧，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为静音帧。

显然，当对该音频帧的下一音频帧进行类别分析处理时，需要返回执行上述步骤s201。

如图2(b)所示，当一音频帧的属性为语音帧时，对该音频帧执行类别分析处理，可以包括如下步骤：

s206：判断该音频帧的短时能量是否大于预设的第二阈值，如果是，执行s207，否则，执行s208；

当一个音频帧的属性为语音帧时，移动终端便可以判断该该音频帧的短时能量是否大于预设的第二阈值，如果是，则执行s207，否则，则执行s208。

s207：确定该音频帧的类别为第三类别，确定第一数值为零，第二数值加1，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为语音帧；

当该音频帧的短时能量大于预设的第二阈值时，移动终端便可以将该音频帧确定为第三类别的音频帧，这样，移动终端便可以不记录该音频帧的帧号。

此时，移动终端可以将第一数值清零，并将第二数值在当前数值上加1，得到新的第二数值。同时，移动终端可以判断该音频帧是否为最后一个音频帧，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为语音帧。

显然，当对该音频帧的下一音频帧进行类别分析处理时，需要返回执行上述步骤s206。

s208：第一数值加1，并判断加1后得到的第一数值是否小于预设的第三阈值，如果是，执行s209，否则，执行s210；

当该音频帧的短时能量不大于预设的第二阈值时，此时，移动终端不能确定该音频帧的类别。移动终端将第一数值在当前数值上加1，得到新的第一数值，并进一步判断得到的新的第一数值是否小于预设的第三阈值。如果是，则执行s209，否则，则执行s210。

其中，预设的第三阈值可以理解为：预设的最大静音段长度，用于表示语音段之间的停顿最小长度。该第三阈值可以根据实际应用中的具体情况进行设定，对此，本申请不做具体限定。

s209：确定该音频帧的类别为第三类别，确定第一数值不变，第二数值加1，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为语音帧；

当上述步骤s208中得到的新的第一数值小于预设的第三阈值时，说明当前静音段包括的音频帧的帧数小于预设的最大静音段长度，则移动终端可以将该音频帧确定为第三类别的音频帧。这样，移动终端便可以不需要记录该音频帧的帧号。

此外，移动终端还可以保持第一数值不变，依旧为当前数值，并在第二数值的当前数值上加1，得到新的第二数值。同时，移动终端可以判断该音频帧是否为最后一个音频帧，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为语音帧。

显然，当对该音频帧的下一音频帧进行类别分析处理时，需要返回执行上述步骤s206。

s210：判断第二数值是否小于预设的第四阈值，如果是，执行s211，否则，执行s212；

当上述步骤s208中得到的新的第一数值不小于预设的第三阈值时，此时，移动终端不能确定该音频帧的类别，需要进一步判断第二数值是否小于预设的第四阈值。如果是，则执行s211，否则，则执行s212。

其中，预设的第四阈值可以理解为：最小语音段长度。该第四阈值可以根据实际应用中的具体情况进行设定，对此，本申请不做具体限定。

s211：确定该音频帧的类别为第三类别，确定第一数值和第二数值为零，并删除所记录的类别为第一类别的音频帧的帧号中最后一次记录的帧号，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为静音帧；

当第二数值小于预设的第四阈值时，说明当前语音段包括的音频帧的帧数小于预设的最小语音段长度，则移动终端可以将该音频帧确定为第三类别的音频帧。这样，移动终端便可以不需要记录该音频帧的帧号。

此外，移动终端还可以将第一数值和第二数值均清零，并删除所记录的类别为第一类别的音频帧的帧号中最后一次记录的帧号，即将已记录的第一类别的音频帧的帧号中与该音频帧的帧号的差值最小的帧号删除。

这样，当移动终端在执行上述步骤a3，基于所确定的类别为第一类别和第二类别的音频帧的帧号，将音频信息划分为多个语音段时，所利用的帧号中便不会包括在步骤s211中删除的帧号。

同时，移动终端可以判断该音频帧是否为最后一个音频帧，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为静音帧。

显然，当对该音频帧的下一音频帧进行类别分析处理时，需要执行图2(a)中所示的步骤，即首先执行上述步骤s201。

s212：确定该音频帧的类别为第二类别，并记录该音频帧的帧号，确定第一数值和第二数值为零，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为静音帧。

当第二数值不小于预设的第四阈值时，说明当前语音段包括的音频帧的帧数不小于预设的最小语音段长度，则移动终端可以将该音频帧确定为第二类别的音频帧，即语音的结束帧。这样，移动终端便可以记录该音频帧的帧号。

显然，当对该音频帧的下一音频帧进行类别分析处理时，需要执行图2(a)中所示的步骤，即首先执行上述步骤s201。

其中，在上述步骤s201-s212中，移动终端可以预先设置两个存储空间，其中一个用于记录上述被确定为第一类别的音频帧的帧号，该存储空间可以用b表示，另一个用于记录上述被确定为第二类别的音频帧的帧号，该存储空间可以用e表示。当然，也可以通过其他方式记录上述被确定为第一类别的音频帧的帧号和上述被确定为第二类别的音频帧的帧号，这都是合理的。

需要说明的是，上述步骤s201-s212仅是本发明实施例实现上述步骤a2的一种实施方式，除该实施方式外意外，能够实现上述步骤a2的方式均属于本发明实施例的保护范围。

相应于上述应用于移动终端的第一种基于声波感知的文本输入方法，本发明实施例还提供了应用于服务器的第二种基于声波感知的文本输入方法。

图3为本发明实施例提供的应用于服务器的第二种基于声波感知的文本输入方法的流程示意图，如图3所示，该方法可以包括如下步骤：

s301：接收移动终端发送的待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序。

其中，音频信息为：用户在移动终端的显示屏以外的对象上，书写待输入文本时所产生的声音数据。

在上述本发明实施例提供的应用于移动终端的第一种基于声波感知的文本输入方法中，移动终端向服务器发送了待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序。因此，在本发明实施例提供的应用于服务器的第二种基于声波感知的文本输入方法，服务器便可以接收移动终端所发送的待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序。

s302：基于待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果；

在接收移动终端发送的待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，服务器便可以基于待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果。

可以理解的，当待输入文本的类型不同时，待输入文本的输入结果的形式是不同的。例如，当待输入文本为字母密码时，可以理解的，字母密码通常为一串无序且无意义的字母，这时，服务器便可以直接将得到的目标字母串确定为待输入文本的输入结果。又例如，当待输入文本为一个单词时，待输入文本的输入结果也应该为单词。因此，当待输入文本的类型不同时，服务器执行上述步骤s302，确定待输入文本的输入结果的方式可以不同。

例如，当待输入文本的类型为密码时，服务器可以直接确定待输入文本的输入结果为一个字符串；当待输入文本的类型为单词时，服务器可以基于预设的单词库、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定多个单词作为待输入文本的输入结果。

需要说明的是，根据实际应用中的不同情况，服务器可以采用多种方式确定待输入文本的输入结果。对此，本发明实施例不做具体限定。为了行文清晰，后续会对上述步骤s302进行举例说明。

s303：将输入结果反馈给移动终端。

在确定待输入文本的输入结果后，服务器便可以将该输入结果反馈给移动终端，以使得移动终端可以接收该输入结果，并基于该输入结果在显示屏中显示待输入文本对应的文本信息。

下面，对上述步骤s302，基于待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果，进行举例说明。

当待输入文本的类型为密码时，上述步骤s302，可以包括如下步骤：

步骤c1：针对每个待识别字母的音频片段，计算该待识别字母的音频片段与预设字母样本库中的每个字母模板样本的距离，作为该待识别字母的音频片段对应的多个目标距离。

在接收到待输入文本的类型为密码、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序后，针对所接收到的每个待识别字母的音频片段，服务器便可以计算该待识别字母的音频片段与预设字母样本库中的每个字母模板样本的距离，这些计算得到的距离便可以作为该待识别字母的音频片段对应的多个目标距离。

其中，上述预设字母样本库包括多个样本且每个样本为对应于一个字母的音频，这些样本是预先收集的多个用户采用多种不同方式在多个目标对象上书写各个字母时产生的音频，例如，当待输入文本为英文单词时，对应的预设字母样本库中包括多种书写情况下，书写26个英文字母的音频。

进而，任一字母模板样本对应一个字母且从该字母对应的多个样本中确定得到。也就是，针对每个字母，从预设字母样本库中对应于该字母的所有样本中选取一个样本作为该样本的字母模板样。为了行文清晰，后续会对任一字母模板样本的确定方式进行具体介绍。

需要说明的是，服务器可以采用多种方式，计算每个待识别字母的音频片段对应的多个目标距离，对此，本发明实施例不作具体限定。

可选的，一种具体实现方式中，上述步骤c1可以包括如下步骤：

步骤d1：针对每个待识别字母的音频片段，将该待识别字母的音频片段与预设字母样本库中的每个字母模板样本对齐；

可以理解的，由于书写速度等原因，待识别字母的音频片段与每个字母模板样本可以是不等长的，从而无法直接对识别字母的音频片段与每个字母模板样本进行比较。因此，在本实现方式中，需要首先将待识别字母的音频片段与预设字母样本库中的每个字母模板样本对齐。

具体的，在上述步骤d1中，可以采用基于dtw(dynamictimewarping，动态时间规整)的快速对齐机制，其主要过程为：针对每个待识别字母的音频片段，首先提取该待识别字母的音频片段和每个字母模板的变化趋势曲线，即包络，然后对每个包络进行分帧并取每帧采样点的均值以降低采样点个数，最后用dtw进行该待识别字母的音频片段和每个字母模板的对齐。

当然，在上述步骤d1中，服务器也可以采用其他对齐方式，这都是合理的。

步骤d2：针对每个待识别字母的音频片段，提取对齐后的该待识别字母的音频片段的第一梅尔频率倒谱系数和每个字母模板样本的第二梅尔频率倒谱系数，并基于第一梅尔频率倒谱系数和每个第二梅尔频率倒谱系数，计算该待识别字母的音频片段与每个字母模板样本的距离，得到该待识别字母的音频片段对应的多个目标距离。

针对每个待识别字母的音频片段，在将该待识别字母的音频片段与预设字母样本库中的每个字母模板样本对齐后，便可以提取对齐后的该待识别字母的音频片段的第一梅尔频率倒谱系数(melfrequencycepstralcoefficients，mfcc)和每个字母模板样本的第二梅尔频率倒谱系数。

然后，便可以基于提取到的第一梅尔频率倒谱系数和每个第二梅尔频率倒谱系数，计算该待识别字母的音频片段与每个字母模板样本的距离。即针对每个字母模板样本，基于提取到的第一梅尔频率倒谱系数和该字母模板样本的第二梅尔频率倒谱系数，便可以计算该待识别字母的音频片段与该字母模板样本的距离，作为一个目标距离。由于存在多个字母模板样本，那么便可以计算得到该待识别字母的音频片段对应的多个目标距离。进而，可以计算得到每个待识别字母的音频片段对应的多个目标距离。

其中，上述目标距离可以根据如下所示的距离计算公式计算：

distance(xij)＝||xi-yj||²

其中，distance(xij)为：第i个待识别字母的音频片段与第j个字母模板样本的距离，xi为第i个待识别字母的音频片段的第一梅尔频率倒谱系数，yj为第j个字母模板样本的第二梅尔频率倒谱系数，1≤i≤n，n为待识别字母的音频片段的数量，1≤j≤m，m为字母模板样本的数量。

步骤c2：基于每个待识别字母的音频片段对应的多个目标距离，以及每个待识别字母的音频片段在音频信息中的排列顺序，得到目标字母串，并将目标字母串作为待输入文本的输入结果；

在计算得到每个待识别字母对应的多个目标距离后，服务器便可以基于每个待识别字母的音频片段对应的多个目标距离，以及每个待识别字母的音频片段在音频信息中的排列顺序，得到目标字母串，并将目标字母串作为待输入文本的输入结果。

其中，服务器可以采用多种方式得到目标字母串，对此，本发明实施例不做具体限定。为了行文清晰，后续会对上述步骤c2进行举例介绍。

可选的，一种具体实现方式中，上述步骤c2可以包括如下步骤：

步骤e1：针对每个待识别字母的音频片段，从该待识别字母的音频片段对应的多个目标距离中确定第一预设数量个目标距离，将第一预设数量个目标距离对应的字母模板样本所属的字母，确定为该待识别字母的音频片段对应的目标字母，其中，第一预设数量个目标距离中的任一目标距离，小于多个目标距离中除第一预设数量个目标距离以外的任一目标距离；

在确定每个待识别字母对应的多个目标距离后，针对每个待识别字母的音频片段，服务器便可以按照目标距离由小到大的顺序，从最小目标距离对应字母模板样本开始，确定第一预设数量个字母模板样本。进而，确定上述第一预设数量个字母模板样本所属的字母，作为该待识别字母的音频片段对应的目标字母。

可以理解的，当目标距离越小时，该目标距离对应的字母模板样本与待识别字母的音频片段具有更为相似的特点，从而，该字母模板样本所属的字母是待识别字母的可能性也就越大。那么，便可以将这些字母模板样本所属的字母确定为待识别字母的音频片段对应的目标字母。

其中，第一预设数量可以根据实际应用中的不同情况进行设定，例如，第一预设数量可以是5，又或者，第一预设数量可以是3等，这都是合理的。

例如，当待输入文本为英文时，针对某待识别字母的音频片段，根据该该待识别字母的音频片段对应的目标距离，可以确定5个该待识别字母的音频片段的目标字母为：a、b、d、f、w。

步骤e2：针对每个待识别字母的音频片段，计算该待识别字母的音频片段与字母样本库中每个参考样本的第一距离，其中，参考样本为：该待识别字母的音频片段对应的目标字母的样本；

针对每个待识别字母的音频片段，在确定该待识别字母的音频片段对应的目标字母后，服务器便可以在上述字母样本库中获取每个目标字母的样本，并将这些样本作为参考样本。进而，服务器便可以计算该待识别字母的音频片段与每个参考样本的第一距离。

其中，服务器可以采用多种方式计算上述第一距离，对此，本发明实施例不做具体限定。例如，可以根据提取到的该待识别字母的音频片段与每个参考样本的梅尔频率倒谱系数计算该待识别字母的音频片段与每个参考样本的第一距离。

例如，当待输入文本为英文时，字母样本库中每个字母具有10个样本，针对某待识别字母的音频片段，确定目标字母为a、b、d、f、w，则字母样本库中，字母a、b、d、f、w各自对应的10个样本，共50个样本即为该待识别字母的音频片段的参考样本，进而，需要计算50个第一距离。

步骤e3：针对每个待识别字母的音频片段，从该待识别字母的音频片段对应的多个第一距离中确定第二预设数量个第一距离，将第二预设数量个第一距离对应的参考字母，确定为该待识别字母的音频片段对应的候选字母，其中，第二预设数量个第一距离中的任一第一距离，小于多个第一距离中除第二预设数量个第一距离以外的任一第一距离；

针对每个待识别字母的音频片段，在计算得到该待识别字母的音频片段对应的多个第一距离后，服务器便可以按照第一距离由小到大的顺序，从最小第一距离对应的参考样本开始，确定第二预设数量个参考样本。进而，确定上述第二预设数量个参考样本对应的字母，作为该待识别字母的音频片段对应的候选字母。

可以理解的，当第一距离越小时，该第一距离对应的参考样本与待识别字母的音频片段具有更为相似的特点，从而，该参考样本对应的字母是待识别字母的可能性也就越大。那么，便可以将这些字母确定为待识别字母的音频片段对应的候选字母。

其中，第二预设数量可以根据实际应用中的不同情况进行设定，例如，第二预设数量可以是3，又或者，第二预设数量可以是4等，这都是合理的。

例如，当待输入文本为英文时，字母样本库中每个字母具有10个样本，针对某待识别字母的音频片段，确定的目标字母为a、b、d、f、w，则在共50个参考样本，可以确定5个候选字母为：a、a、a、f、d。

步骤e4：针对每个待识别字母的音频片段，确定该待识别字母的音频片段对应的候选字母中出现次数最多的字母，将出现次数最多的字母确定为该待识别字母的音频片段表示的输入字母；

针对每个待识别字母的音频片段，在确定该待识别字母的音频片段对应的候选字母后，服务器便可以确定在这些候选字母中出现次数最多的字母，并将该字母确定为该待识别字母的音频片段表示的输入字母。

可以理解的，每个候选字母均具有一定的可能性是该待识别字母的音频片段表示的输入字母，那么当相同的候选字母的数量越多时，则该候选字母是该待识别字母的音频片段表示的输入字母的可能性也就越大。那么，候选字母中出次数最多的字母是该待识别字母的音频片段表示的输入字母的可能性最大，这样，便可以将该字母确定为该待识别字母的音频片段表示的输入字母。

例如，当待输入文本为英文时，字母样本库中每个字母具有10个样本，针对某待识别字母的音频片段，确定的目标字母为a、b、d、f、w，确定的5个候选字母为：a、a、a、f、d。则在候选字母中出现次数最多的字母是a，这样，便可以确定该待识别字母的音频片段表示的输入字母为：a。

步骤e5：按照每个待识别字母的音频片段在音频信息中的排列顺序，排列每个待识别字母的音频片段表示的输入字母，得到目标字母串。

在确定每个待识别字母的音频片段表示的输入字母后，服务器便可以按照每个待识别字母的音频片段在音频信息中的排列顺序，对这些确定的输入字母进行排列，从而得到目标字母串。

例如，所确定的待识别字母的音频片段的数量为6，所确定的每个待识别字母的音频片段表示的输入字母分布为：a、e、c、p、c、t，按照每个待识别字母的音频片段在音频信息中的排列顺序，第一待识别字母的音频片段表示的输入字母为a，第二待识别字母的音频片段表示的输入字母为c，第三待识别字母的音频片段表示的输入字母为c，第四待识别字母的音频片段表示的输入字母为e，第五待识别字母的音频片段表示的输入字母为p，第六待识别字母的音频片段表示的输入字母为t。则按照每个待识别字母的音频片段在音频信息中的排列顺序，对这些确定的输入字母进行排列，可以得到目标字母串为：accept。

下面，对上述步骤s302，基于待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果，再一次进行举例说明。

当待输入文本的类型为单词时，上述步骤s302，可以包括如下步骤：

步骤f1：在预设的单词库中获取所包含的字母数量与所接收到的待识别字母的音频片段的数量相同的单词，作为多个候选单词。

在接收到待输入文本的类型为单词、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序后，服务器便可以在预设的单词库中获取所包含的字母数量与所接收到的待识别字母的音频片段的数量相同的单词，作为多个候选单词。

其中，预设的单词库的容量和所包括的单词可以根据实际情况的需要进行设定，例如，可以是源于当代美国英语语料库中常用的5000个单词等。此外，该预设的单词库可以存储在服务器中，也可以存储在与服务器通信连接的其他电子设备中，并在服务器需要确定候选单词时，基于服务器发送的获取指令，将确定的多个候选单词发送给服务器。这都是合理的。

可以理解的，由于每个待识别字母的音频片段对应于待输入文本所包含的一个待识别数量，则待识别字母的音频片段的数量即为待输入文本中所包含的待识别字母的数量。这样，在上述步骤f1中得到的多个候选单词即为与待输入文本具有同样字母数量的单词，因此，待输入文本的输入结果便可以是上述候选单词中的一个。

步骤f2：基于每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定每个候选单词的候选概率；

为了更准确的确定待输入文本的输入结果，在获取多个候选单词后，服务器便可以基于每个待识别字母的音频片段，确定每个候选单词的候选概率。

其中，服务器可以通过多种方式确定每个候选单词的候选概率，对此，本发明实施例不作具体限定。

可选的，一种具体实现方式中，上述步骤f2可以为：

步骤g1：针对每个待识别字母的音频片段，计算该待识别字母的音频片段与字母样本库中每个样本的第二距离；并基于计算得到的多个第二距离，计算该待识别字母的音频片段与每个字母模板样本对应的概率，作为多个备选概率；

针对每个待识别字母的音频片段，服务器可以计算该待识别字母的音频片段与字母样本库中每个样本的第二距离。进而，根据计算得到的多个第二距离，服务器便可以计算该待识别字母的音频片段与每个字母模板样本对应的概率，作为多个备选概率。

其中，由于每个字母模板样本均对应于一个字母，则该待识别字母的音频片段与每个字母模板样本对应的概率，即为待识别字母的音频片段表示的输入字母是各个字母的概率。

例如，当待输入文本为英文时，在上述步骤g1中，服务器便可以确定某个待识别字母的音频片段分别为字母a、b、c、……、z时的概率，从而得到该待识别字母的音频片段的26个备选概率。

需要说明的是，服务器可以采用多种方式计算上述第二距离，对此，本发明实施例不做具体限定。

例如，可以根据提取到的该待识别字母的音频片段与每个样本的梅尔频率倒谱系数计算该待识别字母的音频片段与每个样本的第二距离。

此外，服务器也可以采用多种方式计算上述备选概率，对此，本发明实施例不做具体限定。

可选的，一种具体实现方式中，针对每个待识别字母的音频片段，服务器可以采用以下方式确定该待识别字母的音频片段的多个备选概率。具体的，该方式可以包括：

步骤h1：将预设样本库中的样本按照计算得到第二距离由大到小排列，并为每个样本设置概率值，其中，距离大的第二距离对应的样本的概率值小于距离小的第二距离对应的样本概率值。

步骤h2：计算所有样本的概率值的和，作为第一概率和，并计算每个字母的所有样本的概率值的和，作为该字母的第二概率和。

步骤h3：针对每个字母，计算该字母的第二概率和与第一概率和的比值，并将该比值作为该待识别字母的音频片段对应于该字母的备选概率。

例如，当待输入文本为英文，字母样本库中每个字母具有10个样本时，则针对某待识别字母的音频片段，服务器可以计算得到260个第二距离。进而，按照第二距离由大到小排列，并从1开始为每个样本设置概率值，其中，距离最大的第二距离对应的样本的概率值为1，距离最小的第二距离对应的样本的概率值为260，则可以计算得到所有样本的概率值的和，即第一概率和为：33930。假设，字母a的10个样本的概率值分别为1、5、67、120、3、7、87、23、45、33，则可以计算字母a的所有样本的概率和，即字母a的第二概率和为：391。这样，便可以计算得到该待识别字母的音频片段对应于字母a的备选概率为：0.01。相对应的，服务器可以计算得到该待识别字母的音频片段分别对应于其他25个字母的备选概率。

步骤g2：针对每个候选单词，根据每个待识别字母的音频片段在音频信息中的排列顺序，确定该候选单词中所包含的每个字母所对应的待识别字母的音频片段，作为该候选单词中所包含的每个字母的目标音频片段；

针对获取的每个候选单词，服务器可以根据每个待识别字母的音频片段在音频信息中的排列顺序，确定该候选单词中所包含的每个字母所对应的待识别字母的音频片段，作为该候选单词中所包含的每个字母的目标音频片段。

具体的，针对每个候选单词，该候选单词所包含的第一个字母的目标视频片段，就是音频信中排列在第一位的待识别字母的音频片段。以此类推，服务器便可以得到该候选单词中所包含的每个字母的目标音频片段。

步骤g3：针对每个候选单词所包含的每个字母，确定该字母的目标概率，其中，目标概率为：该字母对应的目标音频片段的多个备选概率中，与目标字母模板样本对应的概率，目标字母模板样本为：字母样本库中与该字母对应的字母模板样本；

针对每个候选单词，该候选单词包括多个字母，每个字母对应于一个目标音频片段，则针对每个字母，根据上述步骤g1中计算得到的每个待识别字母的音频片段的多个备选概率，服务器便可以确定该字母对应的目标音频片段的多个备选概率中，该目标音频片段表示的输入字母为该字母时所对应的备选概率。进而，所确定的备选概率即为该字母的目标概率。

例如，当待输入文本为英文，候选单词为apple时，字母a对应的目标音频片段的多个备选概率中，该目标音频片段表示的输入字母为a时所对应的备选概率为0.67，则该字母a的目标概率为0.67。

步骤g4：针对每个候选单词，计算该候选单词所包含的每个字母的目标概率的乘积，作为该候选单词的候选概率。

例如，当待输入文本为英文，候选单词为apple时，字母a对应的目标概率为0.01，第一个字母p对应的目标概率为0.12，第二个字母p对应的目标概率为0.35，字母l对应的目标概率为0.75，字母e对应的目标概率为0.87，则候选单词apple的候选概率为0.00027。

步骤f3：基于候选概率，在多个候选单词中确定第三预设数量个候选单词作为待输入文本的输入结果。

其中，第三预设数量个候选单词中的任一候选单词的概率，大于多个候选单词中除第三预设数量个候选单词以外的任一候选单词。

在确定每个候选单词的候选概率后，服务器便可以基于候选概率，在多个候选单词中确定第三预设数量个候选单词作为待输入文本的输入结果。

其中，确定的输入结果中的每个候选单词的概率大于所确定的多个候选单词中除所确定过的输入结果以外的任一候选单词。也就是说，服务器可以按照候选概率由大到小的顺序排列上述多个候选单词，并将其排列在前第三预设数量位的候选单词确定为待输入文本的输入结果。

需要说明的是，上述第三预设数量可以根据实际应用中的不同情况进行设定。例如，可以是1，即候选单词中候选概率最大的单词确定为待输入文本的输入结果；又例如，可以是3，这样，便可以将候选概率由大到小排列在前三位的候选单词确定为待输入文本的输入结果，显然，当第三预设数量大于1时，服务器可以反馈给移动终端的输入结果中包括单词以供用户选择，这样，便可以提供给用户更多的选择。

此外，可选的，一种具体实现方式中，服务器在确定每个候选单词的候选概率后，还可以将候选概率大于预设概率阈值的候选单词确定为待输入文本的输入结果，并将确定的输入结果反馈给移动终端。

在本实现方式中，当待输入文本不同时，显然，服务器确定的该待输入文本的输入结果所包括的候选单词的数量可以不同。

需要说明的是，在上述实施例的基础上，当待输入文本的类型为单词时，服务器可以通过将上述实施例中的多个步骤进行结合，确定待输入文本的输入结果。

具体的，该方式包括：

基于每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，服务器可以通过上述步骤c1和步骤c2，得到目标字母串；

在得到目标字母串后，服务器可以先不将得到的目标字母串作为待输入文本的输入结果，而是判断目标字母串是否为单词；

当判断出目标字母串是单词时，服务器便可以将目标字母串作为待输入文本的输入结果，也就是说，此时，服务器可以将目标字母串所表示的单词确定为待输入文本所对应的单词。

当判断出目标字母串不是单词时，服务器便可以执行上述步骤f1-f3，得到待输入文本的输入结果。

下面，任一字母对应的字母模板样本的确定方式进行举例介绍。

具体的，任一字母对应的字母模板样本可以通过以下方式确定，该方式可以包括：

步骤i1：针对字母样本库中一个字母的每一样本，计算该样本与该样本以外的各个样本的第三距离，并将各个第三距离中的最小距离所对应的样本，确定为该样本对应的备选样本；

针对每个字母，可以首先确定字母样本库中对应于该字母的所有样本，进而，针对所确定的样本中的每个样本，计算该样本与该样本以外的其他样本的第三距离。这样，便可以将计算得到的所有第三距离中的最小距离对应的样本，确定为该样本对应的备选样本。

其中，服务器可以采用多种方式计算上述第三距离，对此，本发明实施例不做具体限定。例如，可以根据提取到每个样本的梅尔频率倒谱系数，计算每两个样本之间的第一距离。

步骤i2：将该字母的各个样本中被确定为备选样本次数最多的样本，作为该字母的字母模板样本。

针对每个字母，在确定字母样本库中对应于该字母的每个样本对应的备选样本后，便可以将对应于该字母的所有样本中被确定为备选样本次数最多的样本作为该字母的字母模板样本。

可以理解的，针对每个字母，字母样本库中对应于该字母的每个样本都对应于一个备选样本，这个备选样本为字母样本库中对应于该字母的所有样本中除该样本之后的样本中的一个。这样，一个样本便可以是对应于多个样本的备选样本，也就是说，该样本与这些所对应于的样本更为接近。那么，当一个字母对应的各个样本中，一个样本被确定为备选样本的次数最多时，便可以说明该样本在字母样本库中对应于该字母的所有样本中的代表性最好，则该样本便可以作为该字母的字母模板样本。

需要说明的是，上述预设字母样本库可以存储在服务器中，也可以存储在与服务器通信连接的其他电子设备中，并在服务器需要时，根据服务器的获取指令发送给服务器。这都是合理的。

当然，除上述方式外，本发明实施例还可以采用其他方式来确定各个字母模板样本，这都是合理的。

需要说明的是，在上述步骤f2中，确定每个候选单词的候选概率时，可能出现多个候选单词的候选概率相同。那么，当在上述步骤f3中，基于候选概率，确定待输入文本的输入结果时，如果无法将这些候选概率相同的候选单词均确定为待输入文本的输入结果所包括的单词时，服务器便需要在这些候选概率相同的候选单词中进行再次选择。

具体的，服务器可以首先确定这些候选概率相同的候选单词中每个候选单词所包括的字母与上述步骤e4中确定的每个待识别字母的音频片段表示的输入字母中相同字母的个数。这样，服务器在对这些候选概率相同的候选单词进行再次选择时，便可以优先选择相同字母个数多的候选单词作为待输入文本的输入结果。

例如，概率相同的候选单词为：apple和hello，确定的每个待识别字母的音频片段表示的输入字母为：a、l、l、e、h，则候选单词apple与所确定的各个输入字母中相同字母的个数为3，候选单词hello与所确定的各个输入字母中相同字母的个数为4，则服务器可以优先选择候选单词hello作为待输入文本的输入结果。

需要说明的是，在本发明实施例提供的方案中，待输入文本通常为字母文字，即待输入文本是由字母构成的，例如英文、法文、意大利文等。

其中，当待输入文本为汉字时，由于每个汉字均由其对应的汉语拼音，因此，当用户想要在移动终端的显示屏上输入汉字时，用户可以在目标对象上书写该汉字的拼音，这样，应用本发明实例提供的方案，服务器便可以确定用户书写的拼音的输入结果并将其反馈给移动终端，进而移动终端便可以在接收到该输入结果后，在屏幕上显示与该输入结果对应的多个汉字以供用户选择。例如，移动终端可以根据事先统计得到的用户使用汉字的频率，显示与上述输入结果对应的，使用频率较高的汉字。

也就是说，当用户想要在移动终端的显示屏上输入汉字时，可以将传统的通过显示屏上显示的软键盘输入该汉字的拼音，以使得移动终端根据输入的拼音在显示屏上显示多个供用户选择的汉字的方式，转变为：移动终端获取用户在目标对象上书写该汉字的拼音时产生的音频信号，并与服务器共同对该音频信号进行处理，从而在移动终端的显示屏上显示多个供用户选择的汉字的方式。

相应于上述本发明实施例提供的应用于移动终端的第一种基于声波感知的文本输入方法，本发明实施例提供了应用于移动终端的第一种基于声波感知的文本输入装置。图4为本发明实施例提供的应用于移动终端的第一种基于声波感知的文本输入装置的结构示意图，如图4所示，该装置可以包括如下模块：

音频信息获取模块410，用于获取待输入文本对应的音频信息，其中，音频信息为：用户在移动终端的显示屏以外的对象上，书写待输入文本时所产生的声音数据；

音频信息分割模块420，用于对音频信息进行分割，得到待输入文本中每个待识别字母的音频片段；

音频信息发送模块430，用于将待输入文本的类型、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序发送给服务器，以使得服务器基于待输入文本的类型、每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果；

文本显示模块440，用于接收服务器反馈的输入结果，并基于输入结果，在移动终端的显示屏中显示待输入文本对应的文本信息。

作为本发明实施例的一种实施方式，上述音频分割模块420可以包括：

音频划分子模块，用于将音频信息划分为多个音频帧，并分别为每个音频帧添加帧号，其中，时间在前的音频帧的帧号小于时间在后的音频帧的帧号；

音频帧类别确定子模块，用于按照由小到大的帧号顺序，依次确定各个音频帧的类别；

其中，任一音频帧的类别为：第一类别、第二类别或第三类别，其中，第一类别为：音频信息中的语音段的起始帧，第二类别为：音频信息中的语音段的结束帧，第三类别为：音频信息中除语音段的起始帧和语音段的结束帧以外的类别；语音段为：音频信息中书写待识别单词的音频段；

音频片段确定子模块，用于基于所确定的类别为第一类别和第二类别的音频帧的帧号，将音频信息划分为多个语音段，并基于多个语音段确定待输入文本中每个待识别字母的音频片段。

作为本发明实施例的一种实施方式，上述音频帧类别确定子模块可以包括：

类别处理单元，用于按照由小到大的帧号顺序，依次对各个音频帧执行类别分析处理，得到各个音频帧的类别；

其中，当一音频帧的属性为静音帧或过渡帧时，对该音频帧执行类别分析处理，可以包括：

s201：判断该音频帧的短时能量是否大于预设的第一阈值，如果是，执行s202，否则，执行s203；其中，多个音频帧中的第一个音频帧的属性为静音帧，多个音频帧中的除第一个音频帧以外的音频帧的属性基于上一音频帧所确定；静音帧为：处于静音段的音频帧，静音段为：音频信息的起始时刻开始的预设时间内中没有进行书写、只存在环境背景噪音的音频段，过渡帧为：音频信息中由静音段向语音段转变的音频帧；

s202：确定该音频帧的类别为第一类别，并记录该音频帧的帧号，确定预设的第一数值为零，预设的第二数值加1，当该音频帧不是最后一个音频帧时，确定该音频帧的下一个音频帧的属性为语音帧；其中，语音帧为：位于语音段中的音频帧；

s203：判断该音频帧的短时能量是否大于预设的第二阈值，如果是，执行s204，否则，执行s205，其中，第二阈值小于第一阈值；

当一音频帧的属性为语音帧时，对该音频帧执行类别分析处理，可以包括：

s206：判断该音频帧的短时能量是否大于第二阈值，如果是，执行s207，否则，执行s208；

s208：第一数值加1，并判断加1后得到的第一数值是否小于预设的第三阈值，如果是，执行s209，否则，执行s210；

s210：判断第二数值是否小于预设的第四阈值，如果是，执行s211，否则，执行s212；

作为本发明实施例的一种实施方式，上述音频片段确定子模块可以包括：

第一音频片段确定单元，用于将多个语音段中的每个语音段确定为待输入文本中一个待识别字母的音频片段；或，

第二音频片段确定单元，用于基于预设的合并规则，将多个语音段合并为多个音频片段，将每个音频片段确定为待输入文本中一个待识别字母的音频片段。

相应于上述本发明实施例提供的应用于服务器的第二种基于声波感知的文本输入方法，本发明实施例提供了应用于服务器的第二种基于声波感知的文本输入装置。图5为本发明实施例提供的应用于服务器的第二种基于声波感知的文本输入装置的结构示意图，如图5所示，该装置可以包括如下模块：

音频信息接收模块510，用于接收移动终端发送的待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，其中，音频信息为：用户在移动终端的显示屏以外的对象上，书写待输入文本时所产生的声音数据；

输入结果确定模块520，用于基于待输入文本的类型、待输入文本中每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定待输入文本的输入结果；

输入结果反馈模块530，用于将输入结果反馈给移动终端。

作为本发明实施例的一种实施方式，上述输入结果确定模块520可以包括：

目标距离计算子模块，用于当待输入文本的类型为密码时，针对每个待识别字母的音频片段，计算该待识别字母的音频片段与预设字母样本库中的每个字母模板样本的距离，作为该待识别字母的音频片段对应的多个目标距离，其中，预设字母样本库包括多个样本且每个样本为对应于一个字母的音频；任一字母模板样本对应一个字母且从该字母对应的多个样本中确定得到；

输入结果确定子模块，用于基于每个待识别字母的音频片段对应的多个目标距离，以及每个待识别字母的音频片段在音频信息中的排列顺序，得到目标字母串，并将目标字母串作为待输入文本的输入结果；

作为本发明实施例的一种实施方式，上述目标距离计算子模块可以包括：

音频对齐单元，用于针对每个待识别字母的音频片段，将该待识别字母的音频片段与预设字母样本库中的每个字母模板样本对齐；

目标距离计算单元，用于针对每个待识别字母的音频片段，提取对齐后的该待识别字母的音频片段的第一梅尔频率倒谱系数和每个字母模板样本的第二梅尔频率倒谱系数，并基于第一梅尔频率倒谱系数和每个第二梅尔频率倒谱系数，计算该待识别字母的音频片段与每个字母模板样本的距离，得到该待识别字母的音频片段对应的多个目标距离。

作为本发明实施例的一种实施方式，上述输入结果确定子模块可以包括：

目标字母确定单元，用于针对每个待识别字母的音频片段，从该待识别字母的音频片段对应的多个目标距离中确定第一预设数量个目标距离，将第一预设数量个目标距离对应的字母模板样本所属的字母，确定为该待识别字母的音频片段对应的目标字母，其中，第一预设数量个目标距离中的任一目标距离，小于多个目标距离中除第一预设数量个目标距离以外的任一目标距离；

第一距离计算单元，用于针对每个待识别字母的音频片段，计算该待识别字母的音频片段与字母样本库中每个参考样本的第一距离，其中，参考样本为：该待识别字母的音频片段对应的目标字母的样本；

候选字母确定单元，用于针对每个待识别字母的音频片段，从该待识别字母的音频片段对应的多个第一距离中确定第二预设数量个第一距离，将第二预设数量个第一距离对应的参考字母，确定为该待识别字母的音频片段对应的候选字母，其中，第二预设数量个第一距离中的任一第一距离，小于多个第一距离中除第二预设数量个第一距离以外的任一第一距离；

输入字母确定单元，用于针对每个待识别字母的音频片段，确定该待识别字母的音频片段对应的候选字母中出现次数最多的字母，将出现次数最多的字母确定为该待识别字母的音频片段表示的输入字母；

目标字母串确定单元，用于按照每个待识别字母的音频片段在音频信息中的排列顺序，排列每个待识别字母的音频片段表示的输入字母，得到目标字母串。

作为本发明实施例的一种实施方式，上述输入结果确定模块520还可以包括：

候选单词获得子模块，用于在预设的单词库中获取所包含的字母数量与所接收到的待识别字母的音频片段的数量相同的单词，作为多个候选单词；

候选概率确定子模块，用于基于每个待识别字母的音频片段和每个待识别字母的音频片段在音频信息中的排列顺序，确定每个候选单词的候选概率；

第二结果确定子模块，用于基于候选概率，在多个候选单词中确定第三预设数量个候选单词作为待输入文本的输入结果，其中，第三预设数量个候选单词中的任一候选单词的概率，大于多个候选单词中除第三预设数量个候选单词以外的任一候选单词。

作为本发明实施例的一种实施方式，上述候选概率确定子模块可以包括：

备选概率确定单元，用于针对每个待识别字母的音频片段，计算该待识别字母的音频片段与字母样本库中每个样本的第二距离；并基于计算得到的多个第二距离，计算该待识别字母的音频片段与每个字母模板样本对应的概率，作为多个备选概率；

目标音频片段确定单元，用于针对每个候选单词，根据每个待识别字母的音频片段在音频信息中的排列顺序，确定该候选单词中所包含的每个字母所对应的待识别字母的音频片段，作为该候选单词中所包含的每个字母的目标音频片段；

目标概率确定单元，用于针对每个候选单词所包含的每个字母，确定该字母的目标概率，其中，目标概率为：该字母对应的目标音频片段的多个备选概率中，与目标字母模板样本对应的概率，目标字母模板样本为：字母样本库中与该字母对应的字母模板样本；

候选概率确定单元，用于针对每个候选单词，计算该候选单词所包含的每个字母的目标概率的乘积，作为该候选单词的候选概率。

本发明实施例还提供了一种移动终端，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述应用于移动终端的第一种基于声波感知的文本输入方法。

本发明实施例还提供了一种服务器，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现上述应用于服务器的第二种基于声波感知的文本输入方法。

上述移动终端和服务器提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect，pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory，ram)，也可以包括非易失性存储器(non-volatilememory，nvm)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质为服务器中的存储介质，其中存储有计算机程序，该计算机程序被处理器执行时实现上述应用于移动终端的第一种基于声波感知的文本输入方法。

本发明实施例还提供了另一种计算机可读存储介质，计算机可读存储介质为服务器中的存储介质，其中存储有计算机程序，该计算机程序被处理器执行时实现上述应用于服务器的第二种基于声波感知的文本输入方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、移动终端实施例、服务器实施例和计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹焕樸;周安福;刘亮;马华东
技术所有人：北京邮电大学
我是此专利的发明人

上一篇：一种高光泽复合阻燃的HIPS复合材料及其制备方法与流程
上一篇：一种超薄薄膜及其生产方法与流程