一种人体语音识别传输方法及系统与流程

文档序号：15202720发布日期：2018-08-19 21:02阅读：307来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种人体语音识别传输方法及系统。

背景技术：

人机接口(hmi)使用户通过视觉、听觉、或触觉与机器进行交流。为了最小化驾驶员的注意力转移并且提高便利性，已尝试使用语音识别作为车辆内的hmi。根据常规的人体语音识别传输系统，使用标准语言的各种用户人体的声音被存储为语音数据，并且使用该语音数据来执行语音识别。然而，在这种系统中，难以保证语音识别性能，这是因为使用语音识别功能的用户人体的发音方式例如发音语调、发音速度、以及方言等通常不同于对应于语音数据的发音方式。

技术实现要素：

本发明提供了一种人体语音识别传输方法及系统，具有以下优点：基于针对每个区域的语音数据生成针对每个区域的发音方式模型；选择对应于提取的特征点的发音方式模型；以及调整参数，该参数是用于识别语音识别指令的基准。

为达到上述目的，本发明公开了一种人体语音识别传输方法，所述方法包括：

采集用户人体的语音数据；

预处理所述语音数据；

提取所述语音数据的特征点；

选择对应于提取的所述特征点的发音方式模型；

通过使用所选择的发音方式模型来调整参数，所述参数是用于识别语音指令的基准；

基于调整的所述参数来识别所述用户人体的所述语音指令。

可选的，所述预处理所述语音数据的步骤包括：

将模拟语音数据转换为数字语音数据；

校正所述语音数据的增益；

以及消除所述语音数据中的噪声。

可选的，所述发音方式模型由以下步骤生成：

提取在所述语音数据库中存储的针对每个区域的语音数据的特征点；

在特征点数据库中存储所提取的针对每个区域的语音数据的特征点；

通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布，来生成学习模型；

以及通过使用所述学习模型来生成针对每个区域的发音方式模型。

为达到上述目的，本发明还公开了一种人体语音识别传输系统，包括：

采集器，用于采集用户人体的语音数据；

发音方式分类器，用于提取所述用户人体的所述语音数据的特征点，并且选择对应于所述特征点的发音方式模型；

参数调整器，用于通过使用所选择的所述发音方式模型来调整参数，所述参数是用于识别语音指令的基准；

以及语音识别引擎，用于基于调整的所述参数来识别所述用户人体的所述语音指令。

可选的，还包括：预处理器，将从所述采集器传输的模拟语音数据转换为数字语音数据，校正所述语音数据的增益并且消除所述语音数据中的噪声。

可选的，所述发音方式分类器包括：

语音数据库，用于存储针对每个区域的语音数据；

第一特征点提取器，用于提取在所述语音数据库中存储的针对每个区域的语音数据的特征点；

特征点数据库，用于存储由所述第一特征点提取器提取的针对每个区域的语音数据的特征点；

特征点学习器，用于通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布，来生成学习模型，并且所述特征点学习器用于通过使用所述学习模型来生成针对每个区域的发音方式模型；

以及模型数据库，用于存储由所述特征点学习器生成的所述学习模型以及所述发音方式模型。

可选的，所述发音方式分类器还包括：

第二特征点提取器，用于提取从所述预处理器接收的所述用户人体的所述语音数据的特征点；

以及发音方式模型选择器，用于选择对应于由所述第二特征点提取器提取的特征点的所述发音方式模型。

可选的，所述特征点学习器通过使用所述学习模型来生成分布分类器，所述分布分类器用于分类语音数据的特征点的分布。

与现有技术相比，具有如下有益效果：

本发明的语音识别方法可包括：采集用户人体的语音数据；预处理该语音数据；提取该语音数据的特征点；选择对应于提取的特征点的发音方式模型；通过使用所选择的发音方式模型来调整参数，该参数是用于识别语音指令的基准；基于所调整的参数来识别用户人体的语音指令。语音指令的预处理可包括：将模拟语音数据转换为数字语音数据；以及校正该语音数据的增益；消除该语音数据的噪声。发音方式模型可通过提取在语音数据库中存储的针对每个区域的语音数据的特征点来生成；在特征点数据库中存储所提取的针对每个区域的语音数据的特征点；通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点的分布来生成学习模型；并且通过使用学习模型来生成针对每个区域的发音方式模型。

附图说明

图1为本发明提供的人体语音识别传输方法的一种流程示意图。

图2为本发明提供的人体语音识别传输系统的一种结构示意图。

图3为本发明提供的人体语音识别传输系统的另一种结构示意图。

图4为本发明提供的人体语音识别传输系统的再一种结构示意图。

具体实施方式

为进一步了解本发明的内容，结合附图及实施例对本发明作详细描述。

参见图1，图1为本发明提供的人体语音识别传输方法的一种流程示意图，该方法可以包括如下步骤：

s101，采集用户人体的语音数据；

s102，预处理所述语音数据；

s103，提取所述语音数据的特征点；

s104，选择对应于提取的所述特征点的发音方式模型；

s105，通过使用所选择的发音方式模型来调整参数，其中，所述参数是用于识别语音指令的基准；

s106，基于调整的所述参数来识别所述用户人体的所述语音指令。

具体的，所述预处理所述语音数据的步骤包括：将模拟语音数据转换为数字语音数据；校正所述语音数据的增益；以及消除所述语音数据中的噪声。

具体的，所述发音方式模型由以下步骤生成：提取在所述语音数据库中存储的针对每个区域的语音数据的特征点；在特征点数据库中存储所提取的针对每个区域的语音数据的特征点；通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布，来生成学习模型；以及通过使用所述学习模型来生成针对每个区域的发音方式模型。

参见图2，图2为本发明提供的人体语音识别传输系统的一种结构示意图，与图1所示的流程相对应，该系统可以包括：采集器210，用于采集用户人体的语音数据；发音方式分类器220，用于提取所述用户人体的所述语音数据的特征点，并且选择对应于所述特征点的发音方式模型；参数调整器230，用于通过使用所选择的所述发音方式模型来调整参数，所述参数是用于识别语音指令的基准；以及语音识别引擎240，用于基于调整的所述参数来识别所述用户人体的所述语音指令。

具体的，人体语音识别传输系统的采集器210与发音方式分类器220之间还可以包括：预处理器250，将从所述采集器传输的模拟语音数据转换为数字语音数据，校正所述语音数据的增益并且消除所述语音数据中的噪声。

采集器采集用户人体(用户)的模拟语音数据，并且采集器可包括：麦克风，用以接收声波以根据声波的振动生成电信号。预处理器预处理语音数据，并且将预处理过的语音数据传输至发音方式分类器和语音识别引擎。预处理器可包括：模数转换器(adc)、增益校正器、以及噪声消除器。adc将从采集器传输的模拟语音数据转换为数字语音数据(也可称为“语音数据”)。增益校正器校正语音数据的增益(等级)。噪声消除器消除语音数据中的噪声。

具体的，参见图3，图3为本发明提供的人体语音识别传输系统的另一种结构示意图，在图2所示实施例的基础上，所述发音方式分类器220包括：语音数据库221，用于存储针对每个区域的语音数据；第一特征点提取器222，用于提取在所述语音数据库中存储的针对每个区域的语音数据的特征点；特征点数据库223，用于存储由所述第一特征点提取器提取的针对每个区域的语音数据的特征点；特征点学习器224，用于通过学习在所述特征点数据库中存储的针对每个区域的语音数据的特征点的分布，来生成学习模型，并且所述特征点学习器用于通过使用所述学习模型来生成针对每个区域的发音方式模型；以及模型数据库225，用于存储由所述特征点学习器生成的所述学习模型以及所述发音方式模型。

具体的，参见图4，图4为本发明提供的人体语音识别传输系统的再一种结构示意图，在图3所示实施例的基础上，所述发音方式分类器220还包括：第二特征点提取器226，用于提取从所述预处理器接收的所述用户人体的所述语音数据的特征点；以及发音方式模型选择器227，用于选择对应于由所述第二特征点提取器提取的特征点的所述发音方式模型。

具体的，所述特征点学习器通过使用所述学习模型来生成分布分类器，所述分布分类器用于分类语音数据的特征点的分布。

语音数据库存储针对每个区域的语音数据。例如，语音数据库可包括：第一区域语音数据库、第二区域语音数据库、以及第n区域语音数据库。语音数据库可以是先前基于在无回音室中的各种用户人体的语音数据生成的。可基于从远程服务器(例如，远程信息处理服务器)传输的针对每个区域的语音数据来更新语音数据库。此外，可基于从语音识别系统的用户或用户人体接收的区域信息以及从预处理器传输的语音数据来更新语音数据库。

第一特征点提取器提取在语音数据库中存储的针对每个区域的语音数据的特征点，并且将特征点存储在特征点数据库中。第二特征点提取器提取从预处理器接收的用户人体的语音数据的特征点，并且将特征点传输至发音方式模型选择器。由第一特征点提取器提取的针对每个区域的特征点被存储在特征点数据库中。例如，特征点数据库可包括第一区域特征点数据库、第二区域特征点数据库以及第n区域特征点数据库。特征点学习器可通过学习在特征点数据库中存储的针对每个区域的语音数据的特征点来生成学习模型，并且可通过使用学习模型来生成针对每个区域的发音方式模型。

特征点学习器可通过使用学习模型来生成分布分类器，该分布分类器用于分类语音数据的特征点的分布。特征点学习器可使用分布分类器来生成发音方式模型。例如，特征点学习器可通过使用分布分类器来生成对应于第一区域的发音方式模型以及对应于第二区域的发音方式模型，该分布分类器将对应于第一区域的语音数据的特征点的分布以及对应于第二区域的语音数据的特征点的分布分类。

模型数据库存储由特征点学习器生成的学习模型以及发音方式模型。发音方式模型选择器使用分布分类器来选择对应于由第二特征点提取器提取的特征点的发音方式模型，并且将所选择的发音方式模型传输至参数调整器。例如，当由第二特征点提取器提取到新的特征点时，发音方式模型选择器使用分布分类器来选择对应于特征点的发音方式模型。

参数调整器通过使用由发音方式模型选择器选择的发音方式模型来调整参数，该参数是用于识别语音指令的基准。

语音识别引擎基于由参数调整器调整的参数来识别用户人体的语音指令。可基于语音指令(即，语音识别结果)来控制基于语音的设备。例如，可执行对应于所识别的语音指令的功能(例如，呼叫功能或路线指引功能)。可见，使用对应于包括在语音数据中的区域特性的发音方式模型来调整参数，由此提高语音识别性能。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑英
技术所有人：广东聚晨知识产权代理有限公司
我是此专利的发明人

上一篇：驱动电路的接口定义方法和装置与流程
上一篇：一种基于语音的热水器MP3播放方法与流程