一种语音识别数据预处理方法与流程

文档序号：12065432阅读：来源：国知局

技术特征：

1.一种语音识别数据预处理方法，其特征在于，包括以下步骤：

步骤1)组织标准音频文件,整理需要生成数据模型的音频文件；

步骤2)编辑标准文本,整理编辑需要识别评分的文段,句子,单词等文本；

步骤3)配置发音词典,配置该文段需要用到的通用发音词典或者特殊发音词典；

步骤4)生成对应语音模型,根据以上步骤产出文件来生成对应语音模型,保存语音模型文件；

步骤5)采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型；

步骤6)采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。

2.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤1)中整理编辑文本的步骤如下：

11)由于用户终端CPU计算能力限制，进行语音识别评分需要把识别目标设定在一定范围内.如设定为一个单元的课文内容。

3.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤2)中整理编辑文本的步骤如下：创建一个XML配置文件,给每个句子或者单词都在配置文件中创建一个节点,节点中包含音频文件引用路径和对应文本。

4.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤3)中配置发音词典的步骤如下：

31)完成单词或句子配置后，针对每个单词的节点对应配置发音词典的发音，并进行关联；

32)进一步的，发音词典分为常用发音词典和特殊发音词典，如果一篇文段里所有单词都在常用发音词典里,这时就不需要配置特殊发音词典,否则就需要创建对每个常用词典里没有的单词进行发音标注添加到特殊发音词典。

5.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤4)中标准音特征识别数据生成的步骤如下：使用步骤2)中编辑好的标准音频和标准文本配置文件和步骤3)中编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间，在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容。

6.根据权利要求1所述的一种语音识别数据预处理方法，其特征在于：所述步骤5)中语音模型生成模块的步骤如下：调用语音识别引擎,传入声学模型和在步骤4)中生成的文段语音模型,依次对在步骤2)中生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型，在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型。

完整全部详细技术资料下载

当前第2页1 2 3