用于语音输入法的语音训练方法及相应的系统的制作方法

文档序号：2824959阅读：417来源：国知局

专利名称：用于语音输入法的语音训练方法及相应的系统的制作方法
技术领域：
本发明涉及通信领域，尤其涉及一种用于语音输入法的语音训练方法及相应的系统。
背景技术：
语音输入法具有使用简便、快速掌握、快速输入的特点，已经得到广泛的应用。现有的语音输入法的处理方式如下首先终端侧采集语音信息并发送至网络服务器，之后网络服务器对接收到的语音进行特征识别，然后根据识别的语音特征进行声学模型匹配，最终通过语法模型，选择最佳匹配的词句。然而，由于用户的语言总是带有各式各样的个人特点，例如发音，语速，重音，连字等等，用户无法完全按照普通话标准进行发音，因此语音识别总是存在一定程度的不准确。为了提高语音引擎对用户语音识别的准确性，主要采用了语音训练方法。用户需要在使用语音输入法前，按照终端提示的文字信息，进行朗读训练，以便语音引擎中的训练模块根据录制的语音信息与标准文本进行自适应，记录用户的个人信息，用于之后的语音识别。现有的语音训练方法至少存在以下不足用户在使用前需要按照提示文本进行语音训练，为了有效获取用户的语音信息，语音训练一般需要20分钟甚至更长的时间。对于广大用户来说，这种语音训练是非常繁琐的且占用了用户大量的时间。

发明内容
根据本申请的一个实施方式，公开一种用于语音输入法的语音训练方法，包括网络侧设备从终端接收用户实时输入的语音信息；所述网络侧设备对所述语音信息进行语音识别，并将识别出的文字信息发送至所述终端；从所述终端接收反馈信息；以及所述网络侧设备根据所述反馈信息对所述语音信息进行语音训练。根据本申请的另一个实施方式，公开一种用于对语音输入法进行语音训练的系统，包括语音信息提取模块，在终端提取用户实时输入的语音信息；语音识别模块，从所述语音信息提取模块接收所述语音信息，对所述语音信息进行语音识别；文字信息反馈模块，从所述语音识别模块接收对所述语音信息识别出的文字信息，并回送反馈信息；语音训练模块，从所述文字信息反馈模块接收所述反馈信息，并根据所述反馈信息对所述语音信息进行语音训练。

图1示出了本申请一个实施方式的用于语音输入法的语音训练方法的流程1000 ；图2示出了本申请另一个实施方式的用于语音输入法的语音训练方法的流程 2000 ；图3示出了本申请一个实施方式的用于对语音输入法进行语音训练的系统100 ；
图4示出了本申请另一个实施方式的用于对语音输入法进行语音训练的系统 200 ；图5示出了本申请另一个实施方式的用于对语音输入法进行语音训练的系统 300 ；图6示出了本申请另一个实施方式的用于对语音输入法进行语音训练的系统 400 ；图7示出了图6中的网络侧设备的一个实施方式；图8示出了图6中的网络侧设备的另一个实施方式。
具体实施例方式下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行描述。本申请中出现的终端可以是具有语音输入功能并能够进行通信的任何设备，例如手机、PDA等。以下以手机为例进行说明。图1示出了本申请一个实施方式的用于语音输入法的语音训练方法的流程1000。如图1所示，在步骤SllO中，网络侧设备从终端接收用户实时输入的语音信息。例如，手机将用户实时输入的语音信息发送给网络侧设备，网络侧设备接收并存储该语音信息。在步骤S120中，对接收到的语音信息进行语音识别，并将识别出的文字信息发送至终端。例如对语音进行特征识别，根据识别出的语音特征比对声学模型，再根据声学模型比对结果在语法模型中查找最佳匹配结果，然后将语音识别得到的文字信息返回该手机，供该用户使用。然后在步骤S130中，从终端接收反馈信息。通常该反馈信息会与语音信息内容一致。例如，终端从网络侧设备接收到的文字信息如果与语音信息一致，即该文字信息是用户所期望的，则终端会将该文字信息作为反馈信息自动回送至网络侧设备，例如在用户输入下一条语音信息时将该反馈信息回送至网络侧设备；如果不一致，则该终端接收用户的指令对该文字信息进行修改，将修改后的文字信息作为反馈信息自动回送至网络侧设备，例如在用户输入下一条语音信息时将该反馈信息回送至网络侧设备。接着在步骤S140中，根据从终端接收的反馈信息对步骤SllO中接收到的语音信息进行语音训练。在该实施方式中，网络侧设备对用户实时输入的语音信息进行语音识别并将识别出的文字信息返回终端，用户通过终端可以对该文字信息进行编辑、修改，然后将自动发送反馈信息至网络侧设备，网络侧设备根据反馈信息对之前接收到的语音信息进行语音训练。因此，用户不需要在使用语音输入法之前按照提示文本进行专门语音训练，而是在使用语音输入法的过程中进行语音训练，大大提高了用户对语音输入法的用户体验。图2示出了本申请另一个实施方式的用于语音输入法的语音训练方法的流程 2000。在步骤S210中，网络侧设备接收来自终端的用户的语音信息。在步骤S211中，网络侧设备获取用户的用户ID。接着在步骤S212中，根据用户ID从语音训练信息数据库中提取与该用户对应的语音训练信息。作为一种选择，语音训练信息数据库可以存储在该网络侧设备中，网络侧设备还可以为每个用户设立对应的数据库用于存储每个用户的语音训练信息。接着在步骤S220中，网络侧设备根据所提取的语音训练信息对步骤S210中接收到的语音信息进行语音识别，并将语音识别得到的文字信息发送给终端。然后在步骤S230中，网络侧设备从终端接收反馈信息。接着在步骤S240中，根据反馈信息对S210中接收到的语音信息进行语音训练。后在步骤S250中，根据步骤S250中语音训练得到结果更新语音训练信息数据库。作为一种选择，还可在步骤S250中删除S210中存储的语音信息。在本发明的一个实施方式中，用户ID可以是可以是手机号。当用户ID是手机号时，则在步骤S210中该手机号与用户的语音信息一起发送至网络侧设备，以便网络侧设备在步骤S211中获取该手机号；在步骤S240中，该手机号码与反馈信息一起被发送至网络侧设备，以便网络侧设备根据该手机号将步骤S240中得到的语音训练结果存入该用户的语音训练信息数据库中。作为另一种选择，用户ID还可以是用户预先在网络侧设备注册的 ID，在这种情况下，在步骤S210之前，网络侧设备会接收到该用户的登录信息，也就是说用户在使用语音输入法之前需要先通过手机登录到网络侧设备，然后在步骤S211中网络侧设备根据用户的登录信息即可获取该用户的用户ID。此外，根据本申请的另一个实施方式，在步骤S120和/或步骤S220中，网络侧设备还生成用于唯一标识在步骤SllO和/或步骤S210中接收到的语音信息的标识符，并将该标识符与步骤S120和/或步骤S220中识别出的文字信息一起发送至终端。然后在步骤S140和/或步骤S240中，终端将该标识符与反馈信息一起发送至网络侧设备，以使步骤 SllO和/或步骤S210中接收到的语音信息与步骤S140和/或步骤S240中接收到的反馈信息一一对应。并且在步骤S140和/或步骤S240中，网络侧设备还根据接收到的标识符提取在步骤SllO和/或步骤S210中接收到的语音信息，以便根据该反馈信息对语音信息进行语音训练。作为一种选择，网络侧设备可以根据预先设定的阈值删除接收到的语音信息。例如，当网络侧设备由于网络原因没有收到终端上传的反馈信息时，会根据预先设定的时间阈值定时删除接收到的语音信息。此外，语音训练信息数据库可以根据预先设定的阈值停止更新。例如，当网络侧设备根据用户的反馈信息，统计得出针对该用户的语音识别的准确性已经达到预设的阈值时，该用户的语音训练信息数据库可停止更新。根据本申请另一个实施方式，当语音训练信息数据库中没有该用户的语音训练信息时，网络侧设备可提取语音训练信息数据库中的通用语音训练信息对接收到的语音信息进行语音识别，以便进行后续的程序。在完成语音训练后，针对该用户创建新的数据库。图3示出了本申请一个实施方式的用于对语音输入法进行语音训练的系统100。如图3所示，系统100包括语音信息提取模块11、语音识别模块12、文字信息反馈模块13 和语音训练模块14。在一个实施方式中，语音提取模块11和文字信息反馈模块13可以设置在用户侧设备中，语音识别模块12和语音训练模块14可以设置在网络侧设备中。其中，语音信息提取模块11在终端提取用户实时输入的语音信息，并将所提取的语音信息发送给语音识别模块12。例如语音信息提取模块11提取用户向手机实时输入的语音信息，并将该语音信息发送给语音识别模块12。语音识别模块12接收语音信息，对该语音信息进行语音识别，并将识别出的文字信息发送给文字信息反馈模块13。例如语音识别模块12将对接收到的语音信息识别出的文字信息返回手机，供该用户使用。例如，如果文字信息反馈模块13接收到的文字信息与语音信息提取模块11提取的语音信息一致，则将该文字信息作为反馈信息发送至语音训练模块14 ；如果不一致，则根据用户指令对接收到的文字信息进行修改，并将修改后文字信息作为反馈信息发送至语音训练模块14。语音训练模块14接收反馈信息，并根据反馈信息对语音识别模块12接收的语音信息进行语音训练。图4示出了本申请另一个实施方式的用于对语音输入法进行语音训练的系统 200。如图所示，系统200除了包括语音信息提取模块21、语音识别模块22、文字信息反馈模块23和语音训练模块M之外，还包括ID获取模块25、语音训练信息数据库沈以及标识符生成模块27。其中，ID获取模块25获取用户的用户ID。语音训练信息数据库沈，用于存储语音训练信息。语音训练模块M还用于根据ID获取模块25获取的用户ID从语音训练信息数据库26中提取与该用户对应的语音训练信息。作为一种选择，语音训练信息数据库沈可以为每个用户设立对应的数据库，用于存储每个用户的语音训练信息。语音识别模块22根据所提取的语音训练信息对接收到的语音信息进行语音识别。标识符生成模块27 生成语音用于唯一标识该语音信息的标识符，并将该标识符发送给文字信息反馈模块23。作为一种选择，语音识别模块22识别出的文字信息与标识符生成模块27生成的标识符同时发送给文字信息反馈模块23。文字信息反馈模块23将反馈信息与接收到的标识符一起发送至语音训练模块M，以使语音信息与反馈信息一一对应。语音训练模块M根据接收到的标识符提取语音识别模块22接收到的语音信息，并根据该反馈信息对语音信息进行语音训练。语音训练信息数据库26根据语音训练模块M得到的结果进行更新。作为一种选择，用户ID可以是手机号。当用户ID是手机号时，语音信息提取模块 21将用户实时输入的语音信息与手机号码一起发送至语音识别模块22，以便ID获取模块 25获取该手机号码。并且反馈信息模块23还可将该手机号码与反馈信息一起发送至语音训练模块24，以便语音训练模块M根据该手机号将得到的语音训练结果存入与该用户对应的语音训练信息数据库26中。作为另一种选择，用户ID还可以是用户预先在网络侧设备注册的ID，在这种情况下，语音识别模块22在接收语音信息的同时或之前，会接收到用户的登录信息，也就是说用户在使用该手机发送语音信息之前需要先通过该手机登录到网络侧设备。ID获取模块25根据用户的登录信息即可获取该用户的用户ID。在本申请的一个实施方式中，上述的语音提取模块21和文字信息反馈模块可以设置在用户侧设备中，语音识别模块22、语音训练模块M、ID获取模块25、语音训练信息数据库26以及标识符生成模块27可以设置在网络侧设备。图5示出了本申请一个实施方式的用于对语音输入法进行语音训练的系统300。如图5所示，系统300包括用户侧设备31和网络侧设备32。其中，用户侧设备31提取用户实时输入的语音信息，并将所提取的语音信息发送给网络侧设备32。例如手机提取用户实时输入的语音信息并将该语音信息发送给网络侧设备32。网络侧设备32接收语音信息，对该语音信息进行语音识别，并将识别出的文字信息发送给用户侧设备31。例如，如果用户侧设备31接收的文字信息与语音信息一致，则将该文字信息作为反馈信息发送至网络侧设备32 ；如果不一致，则根据用户指令对接收到的文字信息进行修改，并将修改后的文字信息作为反馈信息发送至网络侧设备32。网络侧设备32接收反馈信息，并根据反馈信息对语音识别模块12接收的语音信息进行语音训练。图6示出了本申请另一个实施方式的用于对语音输入法进行语音训练的系统 400。如图所示，系统200除了包括用户侧设备41和网络侧设备42之外，还包括语音训练信息数据库43，用于存储语音训练信息。其中，网络侧设备42还获取用户的用户ID，根据用
7户ID从语音训练信息数据库43中提取与该用户对应的语音训练信息。网络侧设备42根据所提取的语音训练信息对接收到的语音信息进行语音识别。网络侧设备42还生成唯一标识语音信息的标识符，并将该标识符与识别出的文字信息一起发送给用户侧设备41。用户侧设备41将反馈信息与接收到的标识符一起回送至网络侧设备42，以使语音信息与反馈信息一一对应。网络侧设备42根据接收到的标识符提取接收到的语音信息，并根据该反馈信息对所提取的语音信息进行语音训练。语音训练信息数据库43还可以根据网络侧设备42得到的结果进行更新。作为一种选择，语音训练信息数据库43可以存储在网络侧设备42中。作为一种选择，用户ID可以是手机号。当用户ID是手机号时，用户侧设备41将用户的语音信息与手机号码一起发送至网络侧设备42。而且，用户侧设备41还可以将该手机号码与反馈信息一起回送至网络侧设备42，以便网络侧设备42根据该手机号将得到的语音训练结果存入与该用户对应的语音训练信息数据库43中。作为另一种选择，用户ID 还可以是用户预先在网络侧设备注册的ID，在这种情况下，用户侧设备41需要预先登录网络侧设备42，而网络侧设备42则根据用户的登录信息即可获取该用户的用户ID。在本申请的一个实施方式中，上述网络侧设备42可包括语音识别模块421以及语音训练模块422。其中，语音识别模块421从用户侧设备41接收用户实时输入的语音信息，对接收到的语音信息进行语音识别，并将识别出的文字信息发送给用户侧设备41。语音训练模块422从用户侧设备41接收反馈信息，并根据反馈信息对语音信息进行语音训练。其中，通常反馈信息与语音信息的内容是一致的。在本申请的另一个实施方式中，上述网络侧设备42还可包括ID获取模块423以及标识符生成模块424。其中，ID获取模块423获取用户的用户ID。语音训练模块422还用于根据ID获取模块423获取的用户ID从语音训练信息数据库43中提取与该用户对应的语音训练信息。作为一种选择，语音训练信息数据库43可以设置在网络侧设备42中，并且可以为每个用户设立对应的数据库用于存储每个用户的语音训练信息。语音识别模块422 根据所提取的语音训练信息对接收到的语音信息进行语音识别，并将得到的文字信息发送给用户侧设备41。作为一种选择，上述网络侧设备200还可包括标识符生成模块424，用于生成标识符，该标识符唯一地标识语音识别模块421接收到的语音信息。语音识别模块421将该标识符与识别出的文字信息一起发送至用户侧设备41。语音训练模块422从用户侧设备41 接收与反馈信息一起回送的该标识符，以使语音识别模块421接收到的语音信息与反馈信息一一对应。语音训练模块422根据接收到的标识符提取语音信息，以便根据该反馈信息对所提取的语音信息进行语音训练。作为一种选择，网络侧设备42还可以根据预先设定的阈值删除接收到的语音信息。例如，当网络侧设备42由于网络故障等原因没有收到终端上传的反馈信息时，网络侧设备42会根据预先设定的时间阈值定时删除接收到的语音信息。此外，语音训练信息数据库43可以根据预先设定的阈值停止更新语音训练信息数据库。例如，当语音训练信息数据库43根据用户的反馈信息，统计得出针对该用户的语音识别的准确性已经达到预设的阈值时，则停止更新该用户的语音训练信息数据库。根据本申请另一个实施方式，语音训练信息数据库43包括第一数据库表，用来保存语音信息和文字信息的匹配关系。第一数据库表可以包括三个字段=TransID,用来保存标识符生成模块似4生成的标识符；Voicelnfo，用来保存语音识别模块421接收到的语音数据；Time，表示该语音信息采集的时间。网络侧设备42接收到用户侧设备41上传的语音信息并进行语音识别后，将该语音数据存入上述数据表中。当网络侧设备42接收到终端上传的反馈信息时，语音训练模块422根据标识符从语音训练信息数据库43中提取语音信息，然后对该语音信息进行语音训练，对该语音信息的语音训练完成后可以删除该语音信息。如果由于各种原因，语音识别模块421没有收到用户侧设备41的反馈信息，网络侧设备42会定时检查该数据表中的语音数据是否超时，例如通过Time字段判定该数据表中的语音数据是否超时。如果超时，则删除该条记录。语音训练信息数据库43还可以包括第二数据库表，第二数据库表可以包括两个字段，例如^erID *heHnfo。^erID用来存储用户唯一 ID⑴seHnfo用来保存用户信息，在语音特征提取时作为辅助信息。根据本申请另一个实施方式，当语音训练信息数据库43中没有该用户的语音训练信息时，语音识别模块421可以提取语音训练信息数据库43中的通用语音训练信息对接收到的语音信息进行语音识别，以便进行后续的程序。在完成语音训练后，可以针对该用户创建新的数据库。以上仅为本申请的示例性实施方式，本领域技术人员根据上述实施方式，在本申请权利要求限定的范围内，可以对上述各个实施方式进行修改。
9
权利要求
1.一种用于语音输入法的语音训练方法，包括网络侧设备从终端接收用户实时输入的语音信息；所述网络侧设备对所述语音信息进行语音识别，并将识别出的文字信息发送至所述终端；从所述终端接收反馈信息；以及所述网络侧设备根据所述反馈信息对所述语音信息进行语音训练。
2.如权利要求1所述的方法，其中，所述反馈信息是所述终端根据用户指令修改后的文字信息。
3.如权利要求1所述的方法，其中，所述网络侧设备从终端接收用户实时输入的语音信息的步骤还包括获取所述用户的用户ID;以及，所述网络侧设备对所述语音信息进行语音识别的步骤还包括所述网络侧设备根据所述用户ID从语音训练信息数据库中提取与所述用户对应的语音训练信息。
4.如权利要求1所述的方法，其中，所述网络侧设备对所述语音信息进行语音识别，并将识别出的文字信息发送至所述终端的步骤还包括所述网络侧设备生成唯一标识所述语音信息的标识符；以及将所述标识符发送给所述终端。
5.如权利要求4所述的方法，其中，所述从所述终端接收反馈信息的步骤还包括从所述终端接收所述标识符；以及所述网络侧设备根据所所述反馈信息对所述语音信息进行语音训练的步骤还包括根据所述标识符提取所述语音信息。
6.如权利要求3所述的方法，其中，所述网络侧设备从终端接收用户实时输入的语音信息的步骤还包括所述网络侧设备从所述终端接收所述用户ID ；以及所述从所述终端接收反馈信息的步骤还包括所述网络侧设备从所述终端接收所述用户ID。
7.如权利要求6所述的方法，其中，所述用户ID是手机号码。
8.如权利要求3所述的方法，其中，所述用户ID为所述网络侧设备预先存储的用户注册ID。
9.如权利要求8所述的方法，其中，所述网络侧设备从终端接收用户实时输入的语音信息的步骤之前还包括所述网络侧设备接收来自终端的所述用户的登录信息；以及所述获取所述用户的用户ID的步骤还包括从所述登录信息中获取用户ID。
10.一种用于对语音输入法进行语音训练的系统，包括语音信息提取模块，在终端提取用户实时输入的语音信息；语音识别模块，从所述语音信息提取模块接收所述语音信息，对所述语音信息进行语音识别；文字信息反馈模块，从所述语音识别模块接收对所述语音信息识别出的文字信息，并回送反馈信息；语音训练模块，从所述文字信息反馈模块接收所述反馈信息，并根据所述反馈信息对所述语音信息进行语音训练。
11.如权利要求10所述的系统，其中，所述反馈信息是所述文字信息反馈模块根据用户指令修改后的文字信息。
12.如权利要求11所述的语音训练系统，还包括用户ID获取模块，获取所述用户的用户ID ；语音训练信息数据库，存储语音训练信息；所述语音训练模块还用于根据所述用户ID从所述语音训练信息数据库中提取与所述用户对应的语音训练信息。
13.如权利要求11所述的语音训练系统，还包括标识符生成模块，生成唯一标识所述语音信息的标识符，并将所述标识符发送给所述文字信息反馈模块。
14.如权利要求13所述的语音训练系统，其中，所述文字信息反馈模块还用于接收所述标识符，并将所述标识符与所述反馈信息一起发送给所述语音训练模块；所述语音训练模块还用于根据所述标识符提取所述语音信息。
全文摘要
本发明公开一种用于语音输入法的语音训练方法，包括网络侧设备从终端接收用户实时输入的语音信息；所述网络侧设备对所述语音信息进行语音识别，并将识别出的文字信息发送至所述终端；从所述终端接收反馈信息；以及所述网络侧设备根据所述反馈信息对所述语音信息进行语音训练。本发明还公开了相应的系统。通过本发明用户不需要在使用语音输入法之前按照提示文本进行语音训练，而是在使用过程中进行语音训练，大大提高了用户对语音输入法的用户体验。
文档编号G10L15/06GK102543076SQ20111000043
公开日2012年7月4日申请日期2011年1月4日优先权日2011年1月4日
发明者吕志虎, 夏博申请人:中国移动通信集团公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕志虎;夏博
技术所有人：中国移动通信集团公司
我是此专利的发明人

上一篇：一种通过加噪音来降低稳态噪音的装置及方法
上一篇：改善音频重现的助听器和方法