语音处理方法及装置、存储介质、语音处理系统与流程

文档序号:18515438发布日期:2019-08-24 09:25阅读:167来源:国知局
语音处理方法及装置、存储介质、语音处理系统与流程

本发明涉及信息技术领域,尤其涉及一种语音处理方法及装置、存储介质、语音处理系统。



背景技术:

语音识别设备是将人类的语音转换为计算机可读的内容的设备。语音识别设备已经较普遍地应用在人们生活的各个领域,越来越多地受到人们的重视。

现有技术中对语音识别设备的验证结果,主要是通过人工判断语音识别设备的识别结果是否正确,手动记录填写验证结果。这类处理方法需要消耗人力资源较多,效率低、而且人工处理也会引入人工误差。



技术实现要素:

本发明实施例提供一种语音处理方法及装置、存储介质、语音处理系统。

本发明的技术方案是这样实现的:

一方面,提供一种语音处理方法,包括:

第一设备根据语音参数,生成与第一文本对应的第一音频;

播放所述第一音频;

从第二设备获取录制所述第一音频并识别录制的第二音频得到的第二文本;

根据所述第一文本和所述第二文本,验证所述第二音频的识别语音结果并获得验证结果。

进一步地,所述第一设备根据语音参数,生成与第一文本对应的第一音频,包括:

所述第一设备根据所述语音参数,生成与所述第一文本对应且包含噪音成分的所述第一音频。

进一步地,所述第一设备根据所述语音参数,生成与所述第一文本对应且包含噪音成分的所述第一音频包括:

根据所述语音参数及噪声参数,生成与所述第一文本对应的且包含噪音成分的所述第一音频。

进一步地,所述第一设备根据所述语音参数,生成与所述第一文本对应且包含噪音成分的所述第一音频包括:

根据所述语音参数,生成与所述第一文本对应的原始音频;

将所述原始音频和噪声音频混合,生成所述第一音频。

进一步地,所述第一设备根据所述语音参数,生成与所述第一文本对应且包含噪音成分的所述第一音频,包括:

根据所述第二设备的应用场景,确定所述噪音成分的噪音类型;

根据所述语音参数,生成与所述第一文本对应且包括所述噪音类型的噪音成分的所述第一音频。

进一步地,所述方法还包括:

从所述第二设备获取多个所述第二文本对应的语音识别模型所使用子模型的子模型标识;

根据所述验证结果,确定出与所述第一文本匹配率最高的所述第二文本所对应的目标子模型标识;

建立所述目标子模型标识与所述第一音频的噪音类型的对应关系;

将所述对应关系传输给所述第二设备。

进一步地,所述第一设备根据语音参数,生成与第一文本对应的第一音频包括:

第一设备利用不同的语音参数,生成与所述第一文本对应的不同语音特点的第一音频;

所述从第二设备获取录制所述第一音频并识别录制的第二音频得到的第二文本,包括:

从第二设备获取录制所述不同语音特点的第一音频并识别录制的第二音频得到的第二文本。

进一步地,所述语音参数包括:

不同性别属性的语音参数;

不同年龄属性的语音参数;

不同语言类型的语音参数;

不同发音特点的语音参数。

一方面,提供一种语音处理方法,包括:

第二设备录制第一设备播放的根据语音参数及第一文本生成的第一音频,并获得第二音频;

识别所述第二音频,生成第二文本;

输出所述第二文本,其中,所述第二文本用于供所述第一设备基于所述第一文本进行比对,以获得验证所述第二设备的语音识别结果的验证结果。

进一步地,所述识别所述第二音频,生成第二文本包括:

利用所述语音识别模型中不同的子模型,识别所述第二音频,生成多个所述第二文本;

所述输出所述第二文本,包括:

将多个所述第二文本和多个所述第二文本对应的子模型标识发送给所述第一设备;

所述方法还包括:

从所述第一设备获取所述子模型标识与所述第一音频的噪音类型的对应关系;其中,所述对应关系用于在接收到包含有所述噪音类型的输入语音时,选择与所述子模型标识对应的子模型识别所述输入语音。

一方面,提供一种语音处理装置,包括:

生成模块,用于第一设备根据语音参数,生成与第一文本对应的第一音频;

播放模块,用于播放所述第一音频;

得到模块,用于从第二设备获取录制所述第一音频并识别录制的第二音频得到的第二文本;

验证模块,用于根据所述第一文本和所述第二文本,验证所述第二音频的识别语音结果并获得验证结果。

进一步地,所述生成模块,具体用于所述第一设备根据所述语音参数,生成与所述第一文本对应且包含噪音成分的所述第一音频。

一方面,提供一种语音处理装置,包括:

获得模块,用于第二设备录制第一设备播放的根据语音参数及第一文本生成的第一音频,并获得第二音频;

识别模块,用于识别所述第二音频,生成第二文本;

传输模块,用于输出所述第二文本,其中,所述第二文本用于供所述第一设备基于所述第一文本进行比对,以获得验证所述第二设备的语音识别结果的验证结果。

进一步地,所述识别模块,具体用于利用所述语音识别模型中不同的子模型,识别所述第二音频,生成多个所述第二文本;

所述传输模块,具体用于将多个所述第二文本和多个所述第二文本对应的子模型标识发送给所述第一设备;

所述装置还包括获取模块,用于从所述第一设备获取所述子模型标识与所述第一音频的噪音类型的对应关系;其中,所述对应关系用于在接收到包含有所述噪音类型的输入语音时,选择与所述子模型标识对应的子模型识别所述输入语音。

本发明还提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现以上所述的语音识别处理方法。

本发明还提供了一种语音处理系统,包括:

第一设备,用于实现以上所述的一种语言识别处理的方法;

第二设备,用于实现以上所述的另一种语音识别处理的方法。

本发明提供的语音处理方法及装置、存储介质、语音处理系统,第一设备根据第一文本和语音参数生成第一音频。第二设备录制第一音频,并生成第二音频,语音识别第二音频生成第二文本。第一设备根据第一文本和第二文本获得第二设备的语音验证结果。首先,本申请中的第一设备根据第一文本生成第一音频,不用在采集人工朗读或者从各种录入的语音中获取第一音频,降低了第一音频的获取难度和获取效率;其次,相对于从其他方式获得第一音频,由于本申请中直接根据第一文本及音频参数生成的第一音频,如此后续不用人工听其他方式获取的音频得到第一文本,降低了第一文本的确定难度;再次,由于第一音频是基于第一文本由设备自动生成的,能够通过第一文本和第二文本的匹配,实现准确率设备判断,减少了人力资源的消耗,具有较高效率,且减少了由于人工处理而产生误差的风险。

附图说明

图1为本发明实施例提供的一种语音处理方法的流程示意图;

图2为本发明实施例提供的另一种语音处理方法的流程示意图;

图3为本发明实施例提供的一种语音处理装置示意图;

图4为本发明实施例提供的另一种语音处理装置示意图;

图5为本发明实施例提供的一种语音处理系统示意图;

图6为本发明实施例提供的一种语音处理方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明实施例进行详细说明。

图1为本发明实施例提供的一种语音处理方法的流程示意图,如图1所示,所述语音处理方法包括以下步骤:

步骤101:第一设备根据语音参数,生成与第一文本对应的第一音频;

步骤102:播放所述第一音频;

步骤103:从第二设备获取录制所述第一音频并识别录制的第二音频得到的第二文本;

步骤104:根据所述第一文本和所述第二文本,验证所述第二音频的识别语音结果并获得验证结果。

本发明实施例中的第一设备为测试设备,可以为个人电脑、服务器及各种具有运算功能的设备。本发明实施例中的第二设备为被测设备,可以为各种具有语音识别功能的设备,如车载语音识别设备、移动语音识别设备等。

第一设备中的第一文本的信息内容即为第一音频播放的信息内容。第二设备首先录制所述第一音频,并生成第二音频,再利用语音识别模型识别第二音频,生成第二文本。可通过比对第一文本和第二文本,确定第二设备的语音识别的准确率。此外,第二设备还需要对所述语音识别模型进行训练,以提升语音识别的准确率。

第二设备中的语音识别模型可为高斯混合模型(gaussianmixturemodel,gmm)、隐马尔可夫模型(hiddenmarkovmodel)及dfsmn模型等。系统建立时,设定模型的初始值,并基于模型不断训练和优化,直到模型达到一个较理想的语音识别准确率。

语音参数为根据人的声音特点设定的声学特征参数,该声学特征参数可包括:音调参数、响度参数、音色参数等。每个人的声音根据这个人的年龄、性别及自身特性而具有不同的语音参数。第一设备可根据需要设置不同语音参数,如不同年龄段、不同性别及来自不同区域的语音参数,生成不同的第一音频,从而对第二设备进行较全面系统的语音验证。

第一设备中可以只有一个第一文档,也可以有多个第一文档。第一文档和第二文档为可以记载文字内容的文档,如word文档、txt文档等。

在第一设备中只有一个第一文档时,第一文档中记载了多个第一音频播放的信息内容。可以采取下列两种方法生成第一文档:

方法一、在每条第一音频播放的内容不多的情况下,第一音频按其播放顺序分为第一条第一音频、第二条第一音频……第n条第一音频。第一文档中的每行内容都对应了某条第一音频,如第一文档中的第一行内容对应了第一条第一音频播放的信息内容,第一文档中的第二行内容对应了第二条第一音频播放的信息内容……第一文档中的第n行内容对应了第n条第一音频播放的信息内容。

方法二、第一音频按其播放顺序分为第一条第一音频、第二条第一音频……第n条第一音频。第一文本在每条第一音频播放的信息内容的结尾处添加结束标志。结束标志可根据需要设定,可以为字母和数字的组合,比如,将pp5p作为每条音频内容的结束标志,nee作为整个音频内容结束的标志。具体地,第一文本从第一行第一个位置起记录第一条第一音频播放的信息内容,并在第一条第一音频播放的信息内容的结尾处添加标记pp5p,从下一个位置起,记录第二条第一音频播放的信息内容,并在第二条第一音频播放的信息内容的结尾处添加标记pp5p,依次类推,直到记录完第n条第一音频,并在第n条第一音频播放的信息内容的结尾处添加标记nee。

在第一设备中有多个第一文档时,每个第一文档与每条第一音频一一对应。可选地,在不考虑文件类型时,第一文档与其对应的第一音频具有相同的名称,如某一第一文档的名称为河北.txt,与其对应的第一音频的名称为河北.mp3。

可选地,去除所述第一文本中的标点、空格。所述标点包括逗号、句号、换行符等。由于第二文本是第二设备对第二音频进行语音识别得到的,通常情况下,第二文本中是不包含标点和空格的。因此,去除所述第一文本中的标点、空格,便于第一文本和第二文本进行比对,以确定第二设备语音识别的准确率。

可选地,所述第一音频具有相同的音量。生成的第一音频有可能具有不同的音量,将所有的第一音频调整为具有相同的音量,如此,只要根据需要,调整第一设备的播放音量,就可播放不同音量的第一音频,便于后期的检验工作。

可选地,所述步骤102包括:所述第一设备调整第一音频的播放参数,播放所述第一音频。

上述播放参数可包括:第一设备相对于第二设备的角度、第一设备相对于第二设备的位置、第一设备播放第一音频的音量等。由于语音识别设备会运行在不同的环境中,因此,需要模拟各种不同的应用场景,使得语音识别设备在各种环境下,都能表现出较好的语音识别效果。首先,获取语音识别设备在不同的应用场景下的验证结果,上述验证结果中包括语音识别设备的准确率,并计算多种应用场景下语音识别设备的准确率的平均值。如果该平均值在一个比较理想的范围内,则语音识别设备通过验证;如果该平均值不在一个比较理想的范围内,则基于验证结果,不断训练和优化语音识别模型,最终,使语音识别设备的准确率的平均值处在一个理想的范围内。

可选地,所述步骤102包括:在有多个所述第二设备的空间内播放所述第一音频;如此,多个所述第二设备能够同步采集到一个所述第一设备播放的第一音频,形成第二音频。

所述步骤103包括:从多个所述第二设备获取到多个所述第二设备对应的第二文本及多个所述第二设备的标识,其中,所述第二文本为所述第二文本对应的第二设备通过录制所述第一音频并识别录制的第二音频得到的;

所述步骤104包括:根据所述第一文本、多个所述第二设备对应的第二文本和多个所述第二设备的标识,验证多个所述第二音频的识别语音结果并获得验证结果。

上述实施例提供了一台第一设备同时对多台第二设备进行验证的技术方案。可有下列两种具体的实施方式。

实施方式一、每台第二设备中,都存储有不同的语音识别模型,基于同一台第一设备播放的相同音频,可得到多个不同的语音识别结果。通过分析比较,可得到不同语音识别模型不同的识别准确率和运行效率。

实施方式二、多个第二设备中存储相同的语音识别模型,而每台第二设备和第一设备间的角度、位置和距离是不一样的。以此,分析第二设备在距离声源不同位置时,对声源的语音识别情况。

所述步骤103中从第二设备获取录制所述第一音频并识别录制的第二音频得到的第二文本,可以为第一设备接收由第二设备发送的第二文本,也可以为第一设备通过第二设备的输出屏幕上获取到第二文本的内容,还可以为第一设备通过第二设备的日志获取到第二文本的内容。

在第一设备通过第二设备的输出屏幕上获取到第二文本的内容时,第一设备可通过摄像头等图像采集设备采集屏幕中输出的第二文本,再通过图像处理技术,获取第二文本的内容,而无需在第一设备和第二设备间收发文件,使实际环境中的验证工作变得简单。此外,第一设备也可以通过第二设备的相关控件来获取到所述第二文本的内容。

进一步地,所述第一设备根据语音参数,生成与第一文本对应的第一音频,包括:

所述第一设备根据所述语音参数,生成与所述第一文本对应且包含噪音成分的所述第一音频。

语音识别设备在真实的环境中运行,真实的运行环境会存在噪音。通过在第一音频中加入噪音成分,能更好地模拟语音识别设备的真实运行环境,并针对包含噪音成分的第一音频进行识别,并根据验证结果,训练及优化第二设备中的语音识别模型,使第二设备可以在包含有噪音成分的真实环境中,可以具有较高的识别准确率。

下面提供了两种在第一音频中混合入噪音成分的方法。

方法一:根据所述语音参数及噪声参数,生成与所述第一文本对应的且包含噪音成分的所述第一音频。

方法二:根据所述语音参数,生成与所述第一文本对应的原始音频;

将所述原始音频和噪声音频混合,生成所述第一音频。

方法一是利用语音参数和噪声参数,直接生成第一音频。而方法二是先获得噪声音频,再通过第一文本生成原始音频,最后将原始音频和噪声音频进行混合,从而得到包含噪声成分的第一音频。方法二也可以利用语音参数和噪声参数生成第一音频。具体地,方法二中的噪声音频可以通过噪声参数生成,也可以通过录制真实场景下的噪声获得噪声音频。混合原始音频和噪声音频之前,要先获取第一音频的音频范围和平均振幅,再处理噪声音频,使噪声音频的音频范围与原始音频有一定范围的重合,并使原始音频的平均振幅和噪声音频的平均振幅的比值在一个合理范围内。如此,使噪声音频既可以起到混淆原始音频的作用,又不至于使噪声过大或过小。上述两种在第一音频中混合入噪音成分的实现方法都比较简单,可根据实际需要灵活采用任一种方法。

进一步地,步骤101,包括:

根据所述第二设备的应用场景,确定所述噪音成分的噪音类型;

根据所述语音参数,生成与所述第一文本对应且包括所述噪音类型的噪音成分的所述第一音频。

不同的语音识别设备运行在不同的场景中,而这些场景中存在的噪声状况往往是相同的或者近似的。如车载语音识别设备的运行环境中的噪声,经常是汽车行驶过程中,车身与空气摩擦的声音和车轮与地面摩擦的声音;家庭语音识别设备的运行环境中的噪声,通常是洗衣机运转的声音,流水的声音,电视播放的声音等。根据语音识别设备所应用的场景,确定对应的噪音成分的噪音类型,并生成包含该噪音类型的噪音成分的第一音频。通过上述方法生成的第一音频中包含有噪音,且该噪音与语音识别设备所应用的场景中的噪音相近似。利用所述第一音频,获取语音识别设备的验证结果,验证结果中包括识别准确率,如果识别准确率在一个比较理想的范围内,则语音识别设备通过验证;如果该识别准确率不在一个比较理想的范围内,则基于验证结果,不断训练和优化语音识别模型,最终,使该语音设备在其对应的应用场景中具有较好的识别准确率。

进一步地,所述方法还包括:

从所述第二设备获取多个所述第二文本对应的语音识别模型所使用子模型的子模型标识;

根据所述验证结果,确定出与所述第一文本匹配率最高的所述第二文本所对应的目标子模型标识;

建立所述目标子模型标识与所述第一音频的噪音类型的对应关系;

将所述对应关系传输给所述第二设备。

第二设备中的语音识别模型包括多个语音识别子模型,每个语音识别子模型都可独立完成识别音频文件,并生成对应文本的程序。

不同的语音识别设备运行在不同的场景中,不同场景的噪音往往差别很大,很难通过一种语音识别模型,实现对所有场景下的语音信号的精确识别。第二设备中存储有多个不同的语音识别子模型,对于同一第一音频,第一设备根据不同子模型的验证结果,挑选出识别准确率最高的子模型,建立子模型标识和噪音类型的对应关系。

本申请实施例的技术方案建立了子模型标识和噪音类型的对应关系,根据噪音类型,可以挑选出准确率较高的子模型,用于对对应的音频文件进行语音识别。

进一步地,所述步骤101包括:

第一设备利用不同的语音参数,生成与所述第一文本对应的不同语音特点的第一音频;

所述步骤103包括:

从第二设备获取录制所述不同语音特点的第一音频并识别录制的第二音频得到的第二文本。

本发明实施例提供的方案可根据人的声音特点多角度地描述语音参数,比如,以不同性别属性描述语音参数,包括:男性语音参数、女性语音参数;以不同年龄属性描述语音参数,包括:儿童语音参数、青年语音参数、中年语音参数及老年语音参数等;以不同语言类型描述语音参数,包括:英语、日语、汉语等;以不同发音特点描述语音参数,包括:音量语音参数、声源方位语音参数、场景语音参数等。

上述根据人的声音特点多角度地限定语音参数,可使得第二设备中的语音识别模型拥有更丰富的语音输入参数,便于第二设备训练并优化语音识别模型,以是语音识别模型具有较好的识别效果。

图2为本发明实施例提供的另一种语音处理方法的流程示意图,如图2所示,所述语音处理方法包括以下步骤:

步骤201:第二设备录制第一设备播放的根据语音参数及第一文本生成的第一音频,并获得第二音频;

步骤202:识别所述第二音频,生成第二文本;

步骤203:输出所述第二文本,其中,所述第二文本用于供所述第一设备基于所述第一文本进行比对,以获得验证所述第二设备的语音识别结果的验证结果。

本发明实施例中的第一设备为测试设备,可以为个人电脑、服务器及各种具有运算功能的设备。本发明实施例中的第二设备为被测设备,可以为各种具有语音识别功能的设备。

第一设备中的第一文本的内容即为第一音频播放的内容。第二设备首先录制所述第一音频,并生成第二音频,再利用语音识别模型,识别第二音频,生成第二文本。可通过比对第一文本和第二文本,确定上述语音识别的准确率。此外,第二设备还需要对所述语音识别模型进行训练,以提升语音识别的准确率。

第二设备中的语音识别模型可为高斯混合模型(gaussianmixturemodel,gmm)、隐马尔可夫模型(hiddenmarkovmodel)及dfsmn模型等。设定初始值,并基于模型不断训练和优化,以使模型达到一个较理想的语音识别准确率。

所述步骤203中输出所述第二文本,可以为第二设备通过语音识别第二音频直接生成第二文本,也可以为第二设备通过屏幕输出第二文本。

在第二设备通过屏幕输出第二文本时,第一设备可通过摄像头等图像采集设备采集屏幕中的输出的第二文本,再通过图像处理技术,获取第二文本的内容,就可取得对第二设备的处理结果,使实际环境中的验证工作变得简单。此外,第一设备也可以通过第二设备的相关控件获取到所述第二文本的内容。

下列实施例提供了一台第一设备同时对多台第二设备进行验证的技术方案。可有下列两种具体的实施方式。

实施方式一、每台第二设备中,都存储有不同的语音识别模型,基于同一台第一设备播放的相同音频,可得到多个不同的语音识别结果。通过分析比较,可得到不同语音识别模型不同的识别准确率和运行效率。

实施方式二、多个第二设备中存储相同的语音识别模型,而每台第二设备和第一设备间的角度、位置和距离是不一样的。以此,分析第二设备在距离声源不同位置时,所存储的语音识别模型的识别情况。

进一步地,所述步骤202包括:

利用所述语音识别模型中不同的子模型,识别所述第二音频,生成多个所述第二文本;

所述步骤203,包括:

将多个所述第二文本和多个所述第二文本对应的子模型标识发送给所述第一设备;

所述方法还包括:

从所述第一设备获取所述子模型标识与所述第一音频的噪音类型的对应关系;其中,所述对应关系用于在接收到包含有所述噪音类型的输入语音时,选择与所述子模型标识对应的子模型识别所述输入语音。

不同的语音识别设备运行在不同的场景中,不同场景的噪音往往差别很大,很难通过一种语音识别模型,实现所有场景下的语音信号的精确识别。本申请实施例提供的语音处理方法,第二设备中存储有多个不同的语音识别子模型。对于同一第一音频,第一设备根据不同子模型的验证结果,挑选出准确率最高的子模型,作为该第一音频包含的噪音类型所对应的子模型,确定出子模型标识与噪音类型的对应关系。本申请实施例可以使不同的场景对应不同的噪音类型,根据不同的噪音类型,确定不同的语音识别子模型,从而可以较精准地对不同场景下的语音信号进行语音识别。

图3为本发明实施例提供的一种语音处理装置示意图,包括:

生成模块301,用于第一设备根据语音参数,生成与第一文本对应的第一音频;

播放模块302,用于播放所述第一音频;

得到模块303,用于从第二设备获取录制所述第一音频并识别录制的第二音频得到的第二文本;

验证模块304,用于根据所述第一文本和所述第二文本,验证所述第二音频的识别语音结果并获得验证结果。

进一步地,所述生成模块301,具体用于所述第一设备根据所述语音参数,生成与所述第一文本对应且包含噪音成分的所述第一音频。

进一步地,所述生成模块301,具体用于根据所述语音参数及噪声参数,生成与所述第一文本对应的且包含噪音成分的所述第一音频。

进一步地,所述生成模块301,具体用于根据所述语音参数,生成与所述第一文本对应的原始音频;

将所述原始音频和噪声音频混合,生成所述第一音频。

进一步地,所述生成模块301,具体用于根据所述第二设备的应用场景,确定所述噪音成分的噪音类型;

根据所述语音参数,生成与所述第一文本对应且包括所述噪音类型的噪音成分的所述第一音频。

进一步地,所述装置还包括所述建立模块305,用于从所述第二设备获取多个所述第二文本对应的语音识别模型所使用子模型的子模型标识;

根据所述验证结果,确定出与所述第一文本匹配率最高的所述第二文本所对应的目标子模型标识;

建立所述目标子模型标识与所述第一音频的噪音类型的对应关系;

将所述对应关系传输给所述第二设备。

进一步地,所述生成模块301,具体用于第一设备利用不同的语音参数,生成与所述第一文本对应的不同语音特点的第一音频;

所述得到模块303,具体用于从第二设备获取录制所述不同语音特点的第一音频并识别录制的第二音频得到的第二文本。

进一步地,所述语音参数包括:

不同性别属性的语音参数;

不同年龄属性的语音参数;

不同语言类型的语音参数;

不同发音特点的语音参数。

图4为本发明实施例提供的另一种语音处理装置示意图,包括:

获得模块401,用于第二设备录制第一设备播放的根据语音参数及第一文本生成的第一音频,并获得第二音频;

识别模块402,用于识别所述第二音频,生成第二文本;

传输模块403,用于输出所述第二文本,其中,所述第二文本用于供所述第一设备基于所述第一文本进行比对,以获得验证所述第二设备的语音识别结果的验证结果。

进一步地,所述识别模块402,具体用于利用所述语音识别模型中不同的子模型,识别所述第二音频,生成多个所述第二文本;

所述传输模块403,具体用于将多个所述第二文本和多个所述第二文本对应的子模型标识发送给所述第一设备;

所述装置还包括获取模块404,用于从所述第一设备获取所述子模型标识与所述第一音频的噪音类型的对应关系;其中,所述对应关系用于在接收到包含有所述噪音类型的输入语音时,选择与所述子模型标识对应的子模型识别所述输入语音。

本发明还提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够实现本发明的语音识别处理方法。

图5为本发明实施例提供的一种语音处理系统示意图,包括:

第一设备501,用于实现以上第一设备对应的语言处理的方法;

第二设备501,用于实现以上第二设备对应的语音处理的方法。

为使本发明的技术方案更好地被理解,下面提供一种具体的语义处理方法。

图6为本发明实施例提供的一种语音处理方法的流程示意图。该实施例提供的语音处理方法具体包括以下步骤:

电脑端录制需要测试的音频,包括男声、女声、方言等,书写需要测试的语料文档,语料文档的信息内容和测试的音频的信息内容相同,语料文档和测试的音频一一对应;

电脑端调用语音输出设备,播放测试的音频,测试的音频中包括不同音量的音频,配合真实场景的噪声和不同方位的声源,以模拟多种实际场景,例如,通过python中的os模块。

测试的音频放在脚本所在目录的指定文件夹下;

语音识别设备端接收语音输出设备播放的测试的音频,并在语音设备收音栏的屏幕上显示接收到的内容;

连接语音识别设备端;

遍历指定文件夹下所有的测试的音频文件,播放测试的音频文件,同时遍历语料文档;

电脑端通过ui(userinterface,用户界面)自动化脚本,监控并读取语音设备收音栏上的内容;

电脑端将语料文档的内容和监控得到的内容进行对比。如果读取到的收音栏上的内容和测试的音频对应的语料文档中的内容的匹配程度高于某一阀值,则验证通过,否则验证失败,并把结果记录到测试结果文档里;

等待测试的音频(比如1000条)全部测试完成后,将测试结果文档发送给相关系统。

通过jenkins调度上述步骤,使语音处理系统按设定时间运行。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1