一种应答语音的识别方法及装置与流程

文档序号：12128365阅读：192来源：国知局

本发明涉及计算机副语言领域，特别涉及一种应答语音的识别方法及装置。
背景技术：
：近年来，计算机副语言学成为语音语言处理领域的研究热点，语音识别技术的发展对推动智能化、人性化的新型人机交互技术的发展和应用具有重要的作用。语音识别就是利用计算机自动将语音转化成文本的技术，语音一直是人类生活中交互的重要媒介，因此让机器实现对语音的识别是至关重要的一步。目前在很多场合会使用语音记录仪记录语音，并且需要对语音记录仪中记录的语音进行分析。例如，在飞行场景中，使用舱音记录仪记录飞机上的语音，在飞行结束后通过识别舱音记录仪中的语音对飞行质量进行评价。目前，在对语音记录仪中记录的语音信息进行识别时，采用的是机器自动识别的方法，具体的，利用端点识别技术将语音记录仪中记录的语音划分为一句句待识别应答语音，并将待识别应答语音输入到语音识别系统中，通过该语音识别系统识别待识别应答语音。由于待识别应答语音根据不同的说话对象以及环境分为正式应答语音和非正式应答语音，正式应答语音和非正式应答语音对应的语音环境不同，并且说话人语气、语调均不相同；而现有技术直接将获取到的应答语音输入语音识别系统进行识别的方法往往不能准确的识别应答语音。综上所述，目前的应答语音识别方法在识别应答语音时不够准确。技术实现要素：本发明提供一种应答语音的识别方法及装置，用以解决目前的应答语音识别方法在识别应答语音时不够准确的问题。基于上述问题，本发明实施例提供一种应答语音的识别方法，包括：获取待识别应答语音；使用应答方式识别模型确定所述待识别应答语音对应的应答方式；其中，所述应答方式识别模型为有监督的机器学习模型；若所述应答方式为正式应答方式，则将所述待识别应答语音输入第一语音识别系统，以使所述第一语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；若所述应答方式为非正式应答方式，则将所述待识别应答语音输入第二语音识别系统，以使所述第二语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；其中，所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。由于本发明实施例在识别应答语音时，获取待识别的应答语音后，使用应答方式识别模型确定待识别应答语音对应的应答方式，针对正式应答方式和非正式应答方式输入不同的语音识别系统进行识别。由于第一语音识别系统用于识别正式应答语音，第二语音识别系统用于识别非正式应答语音，并且第一语音识别系统和第二语音识别系统配置有不同的参数，针对不同的应答方式使用不同的语音识别系统进行识别，从而使得对待识别应答语音的识别更加准确。可选的，所述使用应答方式识别模型确定所述待识别应答语音对应的应答方式，具体包括：将从所述待识别应答语音提取出的语音特征输入所述应答方式识别模型；获取所述应答方式识别模型输出的所述待识别应答语音对应的应答方式。由于本发明实施例将待识别的应答语音进行特征提取后，将提取到的语音特征输入应答方式识别模型，通过应答方式识别模型确定待识别应答语音对应的应答方式。可选的，所述语音特征包括帧级特征、片级特征和段级特征；根据下列方式从应答语音提取出语音特征：使用特征提取工具，根据预设的帧长和帧移，提取所述待识别应答语音的帧级特征；将所述帧级特征做平滑滤波处理，并对平滑处理后的帧级特征做差分运算，确定所述待识别应答语音的片级特征；根据预设的统计参数，对所述片级特征进行分析处理，确定所述待识别应答语音的段级特征。由于本发明实施例从待识别应答语音中提取出帧级、片级、段级语音特征，从而保证应答方式识别模型准确的识别该待识别应答语音对应的应答方式。可选的，根据下列方式获得所述应答方式识别模型：确定包含多个应答语音的训练集，以及包含多个应答语音的测试集；其中，所述训练集中的应答语音与所述测试集中的应答语音不同；针对所述训练集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练前的应答方式识别模型中进行训练；针对所述测试集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练后的应答方式识别模型中，并获取所述应答方式识别模型输出的所述应答语音对应的应答方式；根据训练后的应答方式识别模型输出的所述测试集中每一个应答语音对应的应答方式，确定所述训练后的应答方式识别模型的正确识别率，若所述正确识别率大于设定阈值，确定所述训练后的应答方式识别模型训练完成，保存所述训练后的应答方式识别模型。由于本发明实施例使用训练集中的多个应答语音对应答方式识别模型进行训练，在训练后使用测试集中的应答语音判断训练后的应答方式识别模型是否满足要求，在应答方式识别模型识别该测试集中的应答语音的正确识别率大于设定阈值时，确定该应答方式识别模型训练完成，保存该训练后的应答方式识别模型；若正确识别率小于设定阈值，则使用训练集中的应答语音再次进行训练，直到应答方式识别模型的正确识别率大于设定阈值，从而保证获得的应答方式识别模型更加准确的识别待识别应答语音对应的应答方式。可选的，所述应答方式识别模型为支持向量机SVM模型。另一方面，本发明实施例还提供一种应答语音的识别装置，包括：获取模块，用于获取待识别应答语音；识别模块，用于使用应答方式识别模型确定所述待识别应答语音对应的应答方式；其中，所述应答方式识别模型为有监督的机器学习模型；判断模块，用于若所述应答方式为正式应答方式，则将所述待识别应答语音输入第一语音识别系统，以使所述第一语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；若所述应答方式为非正式应答方式，则将所述待识别应答语音输入第二语音识别系统，以使所述第二语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；其中，所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。可选的，所述识别模块，具体用于：将从所述待识别应答语音提取出的语音特征输入所述应答方式识别模型；获取所述应答方式识别模型输出的所述待识别应答语音对应的应答方式。可选的，所述语音特征包括帧级特征、片级特征和段级特征；所述识别模块，具体用于：根据下列方式从应答语音提取出语音特征：使用特征提取工具，根据预设的帧长和帧移，提取所述待识别应答语音的帧级特征；将所述帧级特征做平滑滤波处理，并对平滑处理后的帧级特征做差分运算，确定所述待识别应答语音的片级特征；根据预设的统计参数，对所述片级特征进行分析处理，确定所述待识别应答语音的段级特征。可选的，所述获取模块，还用于：根据下列方式获得所述应答方式识别模型：确定包含多个应答语音的训练集，以及包含多个应答语音的测试集；其中，所述训练集中的应答语音与所述测试集中的应答语音不同；针对所述训练集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练前的应答方式识别模型中进行训练；针对所述测试集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练后的应答方式识别模型中，并获取所述应答方式识别模型输出的所述应答语音对应的应答方式；根据训练后的应答方式识别模型输出的所述测试集中每一个应答语音对应的应答方式，确定所述训练后的应答方式识别模型的识别正确率，若所述识别正确率大于设定阈值，确定所述训练后的应答方式识别模型训练完成，保存所述训练后的应答方式识别模型。可选的，所述应答方式识别模型为支持向量机SVM模型。附图说明为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本发明实施例应答语音的识别方法的流程图；图2为本发明实施例提取语音特征的流程图；图3为本发明实施例获取应答方式识别模型的方法流程图；图4为本发明实施例获取应答方式识别模型的方法的整体流程图；图5A为本发明实施例SVM核函数对应的识别结果准确率示意图；图5B为本发明实施例SVM核函数性能比较图；图6为本发明实施例应答语音的识别装置的结构示意图。具体实施方式本发明实施例获取待识别应答语音；使用应答方式识别模型确定所述待识别应答语音对应的应答方式；其中，所述应答方式识别模型为有监督的机器学习模型；若所述应答方式为正式应答方式，则将所述待识别应答语音输入第一语音识别系统，以使所述第一语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；若所述应答方式为非正式应答方式，则将所述待识别应答语音输入第二语音识别系统，以使所述第二语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；其中，所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。由于本发明实施例在识别应答语音时，获取待识别的应答语音后，使用应答方式识别模型确定待识别应答语音对应的应答方式，针对正式应答方式和非正式应答方式输入不同的语音识别系统进行识别。由于第一语音识别系统用于识别正式应答语音，第二语音识别系统用于识别非正式应答语音，并且第一语音识别系统和第二语音识别系统配置有不同的参数，本发明实施例首先识别应答语音为正式应答方式或非正式应答方式，针对不同的应答方式使用不同的语音识别系统进行识别，从而提升整体的语音识别性能，对待识别应答语音的识别更加准确。需要说明的是，本发明实施例的识别应答语音的应答方式的方法，不仅可以用于提升语音识别系统的效果，还可以应用于其它的高层系统，比如说话人识别系统，异常音监测系统等。为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。如图1所示，本发明实施例应答语音的识别方法包括：步骤101、获取待识别应答语音；步骤102、使用应答方式识别模型确定所述待识别应答语音对应的应答方式；其中，所述应答方式识别模型为有监督的机器学习模型；步骤103、若所述应答方式为正式应答方式，则将所述待识别应答语音输入第一语音识别系统，以使所述第一语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；若所述应答方式为非正式应答方式，则将所述待识别应答语音输入第二语音识别系统，以使所述第二语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；其中，所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。本发明实施例待识别应答语音对应的应答方式包括正式应答方式和非正式应答方式；本发明实施例可以应用于飞行场景中，对飞行场景中的应答语音的应答方式进行识别，识别飞行中的应答语音的应答方式为正式应答方式或非正式应答方式。其中，正式应答方式的识别语音为驾驶员与地面控制中心之间的指示性对话；例如，驾驶员向地面控制中心发出请示，地面控制中心针对驾驶员的请示进行应答，驾驶员向地面控制中心回复确认等。非正式应答方式的识别语音为正副驾驶员之间的对话，或驾驶员与地面塔台之间的对话；例如，正副驾驶员之间聊天的语音，正副驾驶员之间关于飞行过程中的指导性语音，驾驶员向地面塔台中心汇报飞机状态等。需要说明的是，本发明实施例并不限于飞行场景中，在任意语言场境中均可利用本发明实施例的应答方式识别方法，并且，在不同的语言场景中，对正式应答方式和非正式应答方式的定义也不尽相同。例如，A、B为足球比赛解说员，在确定A和B之间的对话信息的应答方式时，将A和B之间关于该场足球比赛的对话定义为正式应答方式的对话，将A和B之间与该场足球比赛无关的对话定义为非正式应答方式的对话。本发明实施例在使用应答方式识别模型确定所述待识别应答语音对应的应答方式时，具体采用下面方法：可选的，将从所述待识别应答语音提取出的语音特征输入所述应答方式识别模型；获取所述应答方式识别模型输出的所述待识别应答语音对应的应答方式。其中，本发明实施例的应答方式识别模型为有监督的机器学习模型，具体的，本发明实施例的应答方式识别模型为SVM(支持向量机)模型。本发明实施例在获取到待识别应答语音后，使用特征提取工具，提取所述待识别应答语音中的语音特征。实施中，本发明实施例在提取待识别应答语音中的语音特征时，采用分层提取的方式提取待识别应答语音中的语音特征。本发明实施例的语音特征包括帧级(framelevel)特征、片级特征(segmentlevel)和段级(partlevel)特征。具体的，本发明实施例使用openSMILE特征提取工具，对待识别应答语音进行分层提取，提取出待识别应答语音中的语音特征。可选的，使用特征提取工具，根据预设的帧长和帧移，提取所述待识别应答语音的帧级特征；将所述帧级特征做平滑滤波处理，并对平滑处理后的帧级特征做差分运算，确定所述待识别应答语音的片级特征；根据预设的统计参数，对所述片级特征进行分析处理，确定所述待识别应答语音的段级特征。。下面详细介绍本发明实施例从待识别应答语音中提取语音特征的方法。第一步，提取待识别应答语音中的帧级特征。其中，帧级特征为待识别应答语音中的第一层语音特征。实施中，使用openSMILE特征提取工具，帧长20ms，帧移10ms，共包含16维特征，具体的帧级特征参数如表1所示，具体包括：RMSenergy(RootMeanSquareenergy，能量均方根)、mfcc(Mel-FrequencyCepstralCoefficient，梅尔频率倒谱系数)1-12维、zcr(zero-crossingrate，过零率)、Voice_prob(浊音占比)、F0(根据倒谱计算出的基频)。表1帧级特征的英文简写帧级特征的中文解释RMSenergy能量均方根mfcc(1-12)梅尔频率倒谱系数1-12维zcr过零率(帧级)Voice_prob通过自相关计算浊音占比F0根据倒谱计算出的基频第二步，提取待识别应答语音中的片级特征。其中，片级特征为待识别应答语音中的第二层语音特征。具体的，将所述帧级特征做平滑滤波处理，并对平滑处理后的帧级特征做差分运算，确定所述所述待识别应答语音中的片级特征。实施中，对第一步中得到的帧序列进行窗口长度为3帧的平滑滤波sma(smoothedbyamovingaveragefilter)；在对帧序列进行平滑滤波后，对平滑后的特征做一阶差分de(deltacoefficient)。其中，待具体的片级特征分析函数如表2所示，具体包括：sma(平滑滤波)和de(一阶差分)。表2片级特征分析函数的英文简写片级特征分析函数的中文解释sma平滑滤波de一阶差分在经过第一步和第二步之后，共得到16*2＝32维语音特征。第三步，提取待识别应答语音中的段级特征。其中，段级特征为待识别应答语音中的第三层语音特征。具体的，根据预设的统计参数，对所述片级特征进行分析处理，确定所述待识别应答语音中的段级特征。实施中，对第二步输出的特征做统计分析，主要包括12个统计参数，根据12个统计参数对第二步输出的特征片级特征进行分析处理，得到待识别应答语音中的段级特征。具体的预设的12个统计参数如表3所示，包括：max(maximum，包络取最大值)、min(minute，包络取最小值)、range(包络变化范围)、maxpos(maximumposition，最大值位置)、minpos(minuteposition，包络最小值绝对位置)、amean(Arithmeticmean，包络算数均值)、linregc1(包络的线性近似斜率)、linregc2(包络的线性近似偏移)、linregerrQ(包络的线性预测值与实际值的均方根)、stddev(标准差)、skewness(三阶偏斜度)、kurtosis(四阶峭度)。表3段级特征统计参数的英文简写段级特征统计参数的中文解释max包络取最大值min包络取最小值range包络变化范围maxpos最大值位置minpos包络最小值绝对位置amean包络算数均值linregc1包络的线性近似斜率linregc2包络的线性近似偏移linregerrQ包络的线性预测值与实际值的均方根stddev标准差skewness三阶偏斜度kurtosis四阶峭度如图2所示，本发明实施例在第三步中提取待识别应答语音中的段级特征时，是针对第二步中得到的片级特征进行统计分析，并且包括预设的12个统计参数，则经过第三步段级特征提取后，共得到16*2*12＝384维语音特征。本发明实施例通过特征提取工具提取出待识别应答语音中的语音特征之后，将提取出的语音特征输入到应答方式识别模型中，以使所述应答方式识别模型根据所述语音特征识别所述待识别应答语音对应的应答方式；并获取该应答方式识别模型根据输入的语音特征，输出的该待识别应答语音对应的应答方式。需要说明的是，本发明实施例的应答方式识别模型为经过预先训练的、用于识别应答方式的模型。由于本发明实施例对待识别应答语音对应的应答方式的识别，主要借助于应答方式识别模型，并且该应答方式识别模型为经过预先训练的模型，因此，本发明实施例还包括一个重要的组成部分，即训练应答方式识别模型。下面详细说明本发明实施例训练应答方式识别模型的过程。如图3所示，本发明实施例获得应答方式识别模型的方法包括：步骤301、确定包含多个应答语音的训练集，以及包含多个应答语音的测试集；其中，所述训练集中的应答语音与所述测试集中的应答语音不同；步骤302、针对所述训练集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练前的应答方式识别模型中进行训练；步骤303、针对所述测试集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练后的应答方式识别模型中，并获取所述应答方式识别模型输出的所述应答语音对应的应答方式；步骤304、根据训练后的应答方式识别模型输出的所述测试集中每一个应答语音对应的应答方式，确定所述训练后的应答方式识别模型的识别正确率，若所述识别正确率大于设定阈值，确定所述训练后的应答方式识别模型训练完成，保存所述训练后的应答方式识别模型。步骤301中，本发明实施例在确定训练集和测试集时，从语料库中选取多个应答语音，将选取出的多个应答语音组成训练集或测试集。本发明实施例的语料库为预先录制的语音，该预先录制的语音中包括多个正式应答方式和非正式应答方式的应答语音。例如，语料库可以为在执行实际飞行过程中录制的17.5小时的语音，在录制好之后，对该17.5小时的语音进行标注，假设标注确定该17.5小时的语音中共包括18个说话人，其中包含了4668个正式应答方式的应答语音，以及2257个非正式应答方式的应答语音，则正式应答方式的应答语音与非正式应答方式的应答语音的比例为2.07:1，并且所有应答语音的语音采样频率都为16KHz，量化精度为16bit。从语料库中的所有应答语音中选取出多个应答语音，组成训练集；较佳的，训练集中正式应答方式的应答语音与非正式应答方式的应答语音的比例，接近语料库中正式应答方式的应答语音与非正式应答方式的应答语音的比例。例如，确定两个训练集，分别为训练集A和训练集B，以及确定一个测试集C，其中，训练集A、B和测试集C中正式应答方式的应答语音与非正式应答方式的应答语音的数量及比例如表4所示：从语料库中选取1580个正式应答方式的应答语音，以及1580个非正式应答方式的应答语音组成训练集A，训练集A中正式应答方式的应答语音与非正式应答方式的应答语音的比例为1:1；从语料库中选取3270个正式应答方式的应答语音，以及1580个非正式应答方式的应答语音组成训练集B，训练集B中正式应答方式的应答语音与非正式应答方式的应答语音的比例为2.07:1；从语料库中选取1400个正式应答方式的应答语音，以及677个非正式应答方式的应答语音组成测试集C，测试集C中正式应答方式的应答语音与非正式应答方式的应答语音的比例为2.07:1。表4下面以表4所示的训练集A、B和测试集C为例，说明训练应答方式识别模型的方法。具体的，本发明实施例是通过训练集A和训练集B中每一个应答语音，对应答方式识别模型进行训练，在训练完成后，将测试集C中的每一个应答语音输入训练后的应答方式识别模型，若应答方式识别模型输出的测试集C中应答语音对应的应答方式的正确识别率大于设定阈值时，确定该应答方式识别模型训练完成，并保存训练完成的应答方式识别模型。下面针对训练集A中任意一个应答语音，说明训练应答方式识别模型的过程：1、使用特征提取工具，提取该应答语音的语音特征。具体提取应答语音的语音特征的方法采用上述方法，在此不再详细赘述。2、将该应答语音对应的语音特征输入应答方式识别模型中进行训练。具体的，在将应答语音对应的应答语音输入应答方式识别模型，并将所述应答语音对应的应答方式输入应答方式识别模型，以使应答方式识别模型学习到该语音特征对应的应答方式。本发明实施例采用上述的方式，使用训练集中的应答语音对应答方式识别模型进行训练，在经过训练集A和训练级B中的多个应答语音进行多次训练后，使用测试集C中的应答语音，判断该应答方式识别模型是否训练完成。具体的，在采用测试集C判断应答方式识别模型是否训练完成时，针对测试集C中的任意一个应答语音，执行下列操作：1、使用特征提取工具，提取该应答语音的语音特征；具体提取应答语音的语音特征的方法采用上述方法，在此不再详细赘述。2、将该应答语音对应的语音特征输入训练后的应答方式识别模型；3、获取训练后的应答方式识别模型输出的该应答语音对应的应答方式。具体的，预先设定应答方式识别模型在确定应答语音对应的应答方式为正式应答方式时，应答方式识别模型输出“1”；在确定应答语音对应的应答方式为非式应答方式时，应答方式识别模型输出“0”。本发明实施例在使用训练后的应答方式识别模型对测试集C中的每一个应答语音进行判断后，确定测试集C中每一个应答语音对应的识别结果；将应答方式识别模型确定的测试集C中每一个应答语音对应的识别结果，与每一个应答语音对应的应答方式进行比较，确定测试集C对应的识别结果的正确识别率，若该正确识别率大于设定阈值，则确定该应答方式识别模型训练完成，保存训练后的应答方式识别模型；若该正确识别率不大于设定阈值，则重新选择训练集和测试集，对该应答方式识别模型继续训练，直到该应答方式识别模型对测试集中应答语音的识别结果对应的正确识别率大于设定阈值。如图4所示，本发明实施例获得应答方式识别模型的方法的整体流程图。步骤401、确定包含多个应答语音的训练集，以及包含多个应答语音的测试集；其中，所述训练集中的应答语音与所述测试集中的应答语音不同；下列步骤402、403为针对训练集中的任意一个应答语音。步骤402、使用特征提取工具，提取所述应答语音中的语音特征；步骤403、将提取出的语音特征，以及所述应答语音对应的应答方式输入到应答方式识别模型中进行训练；下列步骤404、405为针对训练集中的任意一个应答语音。步骤404、使用特征提取工具，提取所述应答语音中的语音特征；步骤405、将提取出的语音特征输入到应答方式识别模型中进行识别；步骤406、确定所述测试集中每一个应答语音的识别结果；步骤407、将所述测试集中每一个应答语音的识别结果，与测试集中每一个应答语音对应的应答方式进行比较，确定所述测试集对应的识别结果的正确识别率；步骤408、判断正确识别率是否大于设定阈值，若是，执行步骤409，若否，返回步骤401；步骤409、确定所述应答方式识别模型训练完成后，保存训练后的应答方式识别模型。本发明实施例在识别应答方式的二分类问题中，采用了适用于小数据量的支持向量机SVM分类器作为应答方式识别模型，并且对比了如下核函数：线性核函数、多项式核函数、高斯径向基核函数以及反正切核函数。本发明实施例基于如表4所示的训练集，分别采用线性核函数、多项式核函数、高斯径向基核函数以及反正切核函数进行实验，得到的识别结果的准确率如图5A所示，其中，SVM核函数为线性核函数时，训练集A对应的识别结果的准确率为80.30，训练集B对应的识别结果的准确率为81.02；SVM核函数为多项式核函数，并且d＝2时，训练集A对应的识别结果的准确率为77.95，训练集B对应的识别结果的准确率为79.25；SVM核函数为多项式核函数，并且d＝3时，训练集A对应的识别结果的准确率为76.17，训练集B对应的识别结果的准确率为81.13；SVM核函数为多项式核函数，并且d＝4时，训练集A对应的识别结果的准确率为63.79，训练集B对应的识别结果的准确率为63.94；SVM核函数为高斯径向基核函数时，训练集A对应的识别结果的准确率为90.71，训练集B对应的识别结果的准确率为91.62；SVM核函数为反正切核函数时，训练集A对应的识别结果的准确率为84.45，训练集B对应的识别结果的准确率为89.56；并且，SVM模型分别采用线性核函数、多项式核函数、高斯径向基核函数以及反正切核函数的性能比较如图5B所示。基于同一发明构思，本发明实施例中还提供了一种应答方式的识别装置，由于该装置解决问题的原理与本发明实施例应答方式的识别的方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。如图6所示，本发明实施例应答语音的识别装置，包括：获取模块601，获取模块，用于获取待识别应答语音；识别模块602，用于使用应答方式识别模型确定所述待识别应答语音对应的应答方式；其中，所述应答方式识别模型为有监督的机器学习模型；判断模块603，用于若所述应答方式为正式应答方式，则将所述待识别应答语音输入第一语音识别系统，以使所述第一语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；若所述应答方式为非正式应答方式，则将所述待识别应答语音输入第二语音识别系统，以使所述第二语音识别系统识别所述待识别应答语音，并输出所述待识别应答语音对应的文本信息；其中，所述第一语音识别系统和所述第二语音识别系统配置有不同的参数。可选的，所述识别模块602，具体用于：将从所述待识别应答语音提取出的语音特征输入所述应答方式识别模型；获取所述应答方式识别模型输出的所述待识别应答语音对应的应答方式。可选的，所述语音特征包括帧级特征、片级特征和段级特征；所述识别模块602，具体用于：根据下列方式从应答语音提取出语音特征：使用特征提取工具，根据预设的帧长和帧移，提取所述待识别应答语音的帧级特征；将所述帧级特征做平滑滤波处理，并对平滑处理后的帧级特征做差分运算，确定所述待识别应答语音的片级特征；根据预设的统计参数，对所述片级特征进行分析处理，确定所述待识别应答语音的段级特征。可选的，所述获取模块601，还用于：根据下列方式获得所述应答方式识别模型：确定包含多个应答语音的训练集，以及包含多个应答语音的测试集；其中，所述训练集中的应答语音与所述测试集中的应答语音不同；针对所述训练集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练前的应答方式识别模型中进行训练；针对所述测试集中任意一个应答语音，将从所述应答语音中提取出的语音特征输入到训练后的应答方式识别模型中，并获取所述应答方式识别模型输出的所述应答语音对应的应答方式；根据训练后的应答方式识别模型输出的所述测试集中每一个应答语音对应的应答方式，确定所述训练后的应答方式识别模型的识别正确率，若所述识别正确率大于设定阈值，确定所述训练后的应答方式识别模型训练完成，保存所述训练后的应答方式识别模型。可选的，所述应答方式识别模型为支持向量机SVM模型。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器，使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢湘;唐刚;
技术所有人：北京理工大学;
我是此专利的发明人

上一篇：一种集装箱式安全体验馆及其施工方法与流程
上一篇：基于悬浮技术的航天器十二自由度全物理模拟装置的制作方法