连续语音识别方法、装置、设备和存储介质与流程

文档序号:15807067发布日期:2018-11-02 21:54阅读:219来源:国知局
连续语音识别方法、装置、设备和存储介质与流程
本发明实施例涉及语音处理技术,尤其涉及一种连续语音识别方法、装置、设备和存储介质。
背景技术
在移动互联网及万物互联的大背景下,连续语音识别作为一种人机交互手段正在起着举足轻重的作用,其被广泛应用于生活中。在实际应用中,面对大篇幅的连续语音输入,在识别过程中需要对实时的识别结果进行断句,对断句的部分重新进行识别,以便更新实时的识别结果,从而在保证实时识别的基础上,增加识别的准确性。发明人在实现本发明的过程中,发现现有技术存在如下缺陷:一方面,现有的对连续语音的断句位置仅仅依赖于语音段和非语音段的判别。而实际上,断句的复杂性在于不能仅仅靠识别是否为语音段,而还需要考虑语义的完整性。例如,在实际的语音识别中,常面临的语速慢、停顿长等问题都会导致断句位置的误判,从而影响到识别的准确性。另一方面,加权有限状态转换器(weightedfinite-statetransducers,wfst)被广泛用于连续语音识别领域,是目前较为成熟的技术方案。由于wfst中并非所有状态都可能作为语音输入结束的状态节点,因此,不论是获取最终结果,或者是获取中间的临时结果,都需要先判断对应帧的状态节点中哪些状态节点可能作为语音输入结束的状态节点,再在这些状态节点中找到最优的结果。每次在海量的状态节点中查找其语义结束概率,并进一步判断该状态节点是否可以作为终止状态,需要消耗大量的时间,效率极低。技术实现要素:本发明提供一种连续语音识别方法、装置、设备和存储介质,以解决语音输入结束状态节点判断复杂和识别过程复杂的问题。第一方面,本发明实施例提供了一种连续语音识别方法,该方法包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;所述加权有限状态转换器wfst中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器wfst中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器wfst结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的搜索路径按照路径累积代价进行排序;根据所述按照路径累积代价进行排序的结果,取出所述路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。可选的,所述根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据所述语音转换数据在所述连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个所述状态节点对应的搜索路径;根据各所述搜索路径计算各所述状态节点对应的路径累积代价;整合所述状态节点、所述状态节点对应的搜索路径和所述路径累积代价生成所述当前帧的状态节点路径信息。可选的,所述根据各所述搜索路径计算各所述状态节点对应的路径累积代价,包括:累计各所述搜索路径经过的所述连续语音识别结构前向边上权重,并结合声学模型代价计算各所述状态节点对应的路径累积代价。可选的,在根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若所述当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为所述待识别连续语音的最后一帧,则将所述待识别连续语音的下一帧作为当前帧,并继续前向搜索。第二方面,本发明实施例提供了一种连续语音识别方法,该方法包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;所述加权有限状态转换器wfst中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器wfst中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器wfst结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息;获取所述语义结束状态节点路径信息中的所有所述状态节点路径信息;从所述语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。可选的,所述根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据所述语音转换数据在所述连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个所述状态节点对应的搜索路径;根据各所述搜索路径计算各所述状态节点对应的路径累积代价;整合所述状态节点、所述状态节点对应的搜索路径和所述路径累积代价生成所述当前帧的状态节点路径信息。可选的,所述根据各所述搜索路径计算各所述状态节点对应的路径累积代价,包括:累计各所述搜索路径经过的所述连续语音识别结构前向边上权重,并结合声学模型代价计算各所述状态节点对应的路径累积代价。可选的,在根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若所述当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为所述待识别连续语音的最后一帧,则将所述待识别连续语音的下一帧作为当前帧,并继续前向搜索。第三方面,本发明实施例还提供了一种连续语音识别装置,该装置包括:预处理模块,用于将待识别连续语音的当前帧进行预处理得到语音转换数据;状态节点路径信息生成模块,用于根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;所述加权有限状态转换器wfst中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器wfst中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器wfst结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;搜索路径排序模块,用于若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的搜索路径按照路径累积代价进行排序;搜索结果输出模块,用于根据所述按照路径累积代价进行排序的结果,取出所述路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。第四方面,本发明实施例还提供了一种连续语音识别装置,该装置包括:预处理模块,用于将待识别连续语音的当前帧进行预处理得到语音转换数据;状态节点路径信息生成模块,用于根据所述语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,所述连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;所述加权有限状态转换器wfst中的第一状态节点与所述语义结束状态节点之间设置有前向边;所述第一状态节点为所述加权有限状态转换器wfst中语义结束概率不为0的状态节点;所述前向边的权重值等于所述加权有限状态转换器wfst结构中状态节点对应的所述语义结束概率;所述状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;语义结束状态节点路径信息生成模块,用于若所述状态节点路径信息中包括语义结束状态节点,则将所述状态节点路径信息中所述语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息;状态节点路径信息获取模块,用于获取语义结束状态节点路径信息中的所有状态节点路径信息;语义结束状态节点回溯模块,用于从所述语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出所述最佳搜索路径的搜索结果。第五方面,本发明实施例还提供了一种连续语音识别设备,该设备包括:存储器、显示屏以及一个或多个处理器;所述存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面和第二方面中任一所述的连续语音识别方法。第六方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面和第二方面中任一所述的连续语音识别方法。本发明通过构建包括加权有限状态转换器wfst和语义结束状态节点的连续语音识别结构,并将待识别连续语音的当前帧进行预处理得到语音转换数据后,在连续语音识别结构中进行前向搜索,生成包括当前帧的状态节点、搜索路径和路径累积代价的状态节点路径信息,若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序后,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果,解决语音输入结束状态节点判断复杂和识别过程复杂的问题,实现结构改造简单和搜索效率高的技术效果。附图说明图1为本发明实施例一提供的一种连续语音识别方法的流程图;图2为本发明实施例一提供的一种wfst的部分结构示意图;图3为本发明实施例一提供的一种连续语音识别结构的部分结构示意图;图4为本发明实施例一提供的一种连续语音识别结构的结构示意图;图5为本发明实施例二提供的一种连续语音识别方法的流程图;图6为本发明实施例三提供的一种连续语音识别装置的结构示意图;图7为本发明实施例四提供的一种连续语音识别装置的结构示意图;图8为本发明实施例五提供的一种连续语音识别设备的结构示意图。具体实施方式下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。实施例一图1为本发明实施例一提供的一种连续语音识别方法的流程图。本实施例提供的连续语音识别方法可以由连续语音识别设备执行,该连续语音识别设备可以通过软件和/或硬件的方式实现,该连续语音识别设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。该连续语音识别设备可以是电脑,手机,平板或服务器等。在实施例中,以手机或平板等智能便携终端为例进行描述,其中,智能便携终端可以通过获取用户的语音,并对语音进行处理或识别等操作,最终将处理或识别的结果存储或呈现在智能便携终端上。在实施例中,智能便携终端可以采用内部设置或外接有语音输入装置,该语音输入装置可以是麦克风,不限制麦克风的个数及其分布。智能便携终端还设置有通信装置,可以用于将获取的语音数据传输到云端处理平台进行处理,云端处理平台具有云计算功能,具体用于数据的处理分析,如本实施例中涉及到的语音数据处理分析。也就是说,本实施例提供的连续语音识别方法可以是在智能便携终端实施,也可以通过智能便携终端将语音数据上传至云端处理平台进行处理分析,对此不作限定。对语音的来源也不作限定,如通过上述的语音输入装置获取、从本地存储获取或者从网络获取。进一步的,智能便携终端还内置或外接有显示装置,该显示装置可以用于显示实施本实施例提供的连续语音识别方法之后的输出结果。本实施例以智能便携终端在本地进行语音数据处理分析为例,来对本发明进行示例性描述。具体的,参考图1,本实施例提供的连续语音识别方法具体包括如下步骤:步骤110、将待识别连续语音的当前帧进行预处理得到语音转换数据。其中,待识别连续语音是指连续音频流,可以是来自说话人直接录入的语音,也可以是电话或其他音视频领域的音频信号。连续语音识别是将连续音频流自动转化成文字。在连续语音识别的过程中,原始语音以声音波形的形式呈现,其幅度为声音的响度,需要对输入的原始语音数据进行分帧,也就是把声音切开成多个小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现,使得帧与帧之间存在交叠。在本实施例中,待识别连续语音的当前帧是指待识别连续语音当前输入的的一帧。本实施例中以待识别连续语音的来源为用户直接录入为例进行详述。进一步的,语音转换数据用于抽象表示待识别连续语音,使其能够用于进一步被识别为文字。语音转换数据是通过将待识别连续语音的当前帧进行预处理后得到,根据预处理的方式不同得到不同的数据。如,待识别连续语音的当前帧经过特征提取后得到语音特征向量,其中,特征提取是提取出语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来,也就提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。特征提取的方法可以由频谱衍生出来,如梅尔频频率倒谱系数(melfrequencycepstralcoefficents,mfcc)由于其良好的抗噪性和鲁棒性而应用广泛。mfcc的计算首先用傅里叶变换将时域信号转化成频域,之后对其对数能量谱用依照梅尔频刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换,取前n个系数,其中n为大于0的整数。又如,利用声学模型对上述的语音特征向量进行识别,根据声学模型的建模单元不同,识别结果可以是音素,音节,字,词等各个层次。声学模型多采用隐马尔科夫模型(hiddenmarkovmodel,hmm)进行建模,对于小词汇量的语音识别系统,可以直接采用音节进行建模。而对于词汇量偏大的识别系统,一般选取音素,即声母,韵母进行建模。识别规模越大,识别单元选取的越小。本实施例对声学模型可以识别的语言不作限定,可以是各个国家的语言。本实施例中以语音转换数据是音节为例进行详述,预处理的方式是经过特征提取和声学模型识别,其中声学模型的建模单元为音节,即对应汉字的拼音。步骤120、根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息。其中,连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;加权有限状态转换器wfst中的第一状态节点与语义结束状态节点之间设置有前向边;第一状态节点为加权有限状态转换器wfst中语义结束概率不为0的状态节点;前向边的权重值等于加权有限状态转换器wfst结构中状态节点对应的语义结束概率;状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价。需要说明的是,连续语音识别结构是在加权有限状态转换器wfst的基础上添加语义结束状态节点,结构上仍属于是加权有限状态转换器wfst,相当于是新的加权有限状态转换器wfst。其中,加权有限状态转换器wfst在语音识别的过程中作为一种解码器,可以是根据训练好的hmm声学模型、语言模型及字典建立一个识别网络,也可以是语言模型及字典建立一个识别网络。语言模型是用来计算一个句子出现概率的概率模型,具体的,主要用于决定出现可能性大的词序列,或者在出现了几个词的情况下预测下一个即将出现的词语的内容。语言模型能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。语言模型分为三个层次:字典知识,语法知识,句法知识。具体的,wfst是具有多个状态节点的有向图,状态节点通过前向边进行连接,其上设置有输入标签、输出标签和权重,每个状态节点通过对比用户输入的语音转换数据和输入标签找到对应的前向边,根据前向边的指向转移到下一个状态节点,并输出该前向边对应的输出标签的内容,前向边上的权重代表着该状态点转移过程的概率,即转移概率。实际应用中,wfst用于针对输入的语音转换数据,根据搜索算法在wfst中最佳的一条搜索路径,这个最佳的搜索路径就是能够以最大概率或最小代价输出由该搜索路径上对应输出标签组成的输出词串,从而实现将待识别连续语音转换为一长串文字的功能。需要注意的是,在语音识别中,搜索路径的总权重可以看作在输入语音转换数据的条件下,输出词串的联合概率,又因为马尔科夫链的无后效性假设,所以总权重可以看作搜索路径上权重的乘积。由于计算机运算,需要防止浮点数的下溢,这些概率常常取对数,也就是说总权重是输入序列的概率,对其取负对数,得到总代价。搜索算法是指在解码端通过搜索技术寻找最优输出词串的方法。连续语音识别中的搜索,就是寻找一个词串以描述输入语音信号,即将词串作为搜索结果,搜索结果即识别结果。搜索所依据的是声学模型打分和语言模型打分的结合,其分数对应的即为概率或者代价。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。进一步的,在wfst的每个状态节点都保存一个语义结束概率,用于记录语音输入在此第一状态节点语义结束的可能性,可能性为无时,其语义结束概率为0。本实施例提出一种连续语音识别结构,通过在wfst的基础上增加语义结束状态节点,在语义结束概率不为0的状态节点(即第一状态节点)设置一条指向语义结束状态节点的前向边,前向边的权重值等于第一状态节点对应的语义结束概率,前向边上的输入标签和输出标签均为空操作,其中,空操作是指不需要输入语音转换数据即可转移到该前向边指向的状态节点。语义结束状态节点在识别过程中作为断句依据,以语义结束状态节点作为搜索路径的终点,并将搜索路径上对应的输出标签组成的输出词串作为识别结果输出,从而实现实时更新识别结果,从而在保证实时识别的基础上,增加识别的准确性。具体的,图2为本发明实施例一提供的一种wfst的部分结构示意图,图3为本发明实施例一提供的一种连续语音识别结构的部分结构示意图,如图2所示,状态节点a的语义结束概率wf是不为0的数值,即状态节点a为第一状态节点,如图3所示的连续语音识别结构是在图2所示的wfst结构基础上增加语义结束状态节点final,且状态节点a设置有指向语义结束状态节点final的前向边,前向边上的权重设置为语义结束概率wf,输入标签和输出标签均为空操作ε,其中,空操作ε是指不需要输入语音转换数据即可转移到该前向边指向的状态节点。进一步的,前向搜索是指将当前帧的语音转换数据输入上述连续语音识别结构中,对比语音转换数据与当前状态节点上的前向边对应的输入标签,找出所有可能的转移状态节点,需要注意的是,在可能的转移状态节点对应有输入标签为空操作的前向边的情况下,还应将该前向边指向的状态节点作为可能的转移状态节点,如本实施例中的语义结束状态节点。前向搜索可以采用维特比搜索算法,维特比算法是一种动态规划算法。通过前向搜索可以获得到当前帧为止的语音转换数据经过的搜索路径,从而生成当前帧的状态节点路径信息,其中,状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价。当前帧的状态节点指的根据当前帧的语音转换数据进行前向搜索后得到的符合预设条件的可能转移状态节点,其中,预设条件为:前向边上的输入标签对应当前帧的语音转换数据,且前向边上的权重,即转移概率大于预设阈值,该预设阈值根据实际的语音识别需求进行设定,如基于准确率和识别效率的考虑,调整预设阈值。搜索路径是指前向搜索过程中获得的到当前帧为止的语音转换数据经过的所有状态节点及其顺序,实际中,对搜索路径还可以设置长词惩罚分数,可以用于尽量避免因搜索路径太长而导致识别结果不准确的情况发生。路径累积代价是指到当前帧为止所经过的搜索路径所付出的代价。本实施例对路径累积代价的计算方式不作限定,示例性的,路径累积代价是搜索路径的总权重的负对数值和声学模型概率负对数值的和为例进行说明。步骤130、若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序。其中,语义结束状态节点在识别过程中作为断句依据,以语义结束状态节点作为搜索路径的终点,并将搜索路径上的所有输出标签组成的词串,即识别结果输出,从而实现实时更新识别结果,从而在保证实时识别的基础上,增加识别的准确性。具体的,判断当前帧状态节点路径信息中是否含有语义结束状态节点,若有,则将语义结束状态节点对应的所有搜索路径取出,每一条搜索路径都对应有路径累积代价,按照路径累积代价对所有搜索路径进行排序。本实施例对排序的方法不作限定,示例性的,排序的方法可以是快速排序、桶排序、冒泡排序等排序算法中的一种,在此不进行详述。需要说明的是,若当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为待识别连续语音的最后一帧,则将待识别连续语音的下一帧作为当前帧,并继续前向搜索,即继续执行步骤110-步骤130。另外,如果当前帧为待识别连续语音的最后一帧,则继续执行步骤140。可选的,在实施步骤130之前,还可以包括:将状态节点路径信息中路径累积代价超过预设代价阈值的搜索路径删除。其中,预设代价阈值根据实际需要进行设置。通过删除高累积代价的搜索路径可以减少连续语音识别最佳搜索路径搜索的计算量。步骤140、根据按照路径累积代价进行排序的结果,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。其中,搜索结果是最佳搜索路径上对应的输出标签组成的输出词串,本实施例对输出方式不作限定,示例性的,可以是输出到智能便携终端的显示屏、以文件形式存储在智能便携终端本地或者通过通信装置发送到云端处理平台。需要注意的是,本实施例中只是选取以搜索路径的终点是语义结束状态节点为例进行说明。但在待识别连续语音识别过程中,特别是在将语音转换数据在连续语义识别结构中进行前向搜索时,随时可以通过回溯搜索路径得到搜索结果。示例性的,以下将对本实施例提供的连续语音识别方法的实施过程进行详述。图4为本发明实施例一提供的一种连续语音识别结构的结构示意图。如图4所示,为了便于说明,本实施例以wfst是由语言模型及字典建立的一个识别网络为例进行详述,连续语音识别结构中的前向边上的输入标签为音节,即拼音,输出标签为拼音对应的汉字,权重为状态转移的概率,即转移概率,状态节点11为语义结束状态节点。通过智能便携终端设置的麦克风录入用户的待识别连续语音,并进行实时的连续语音识别。将待识别连续语音的当前帧进行特征提取和声学模型识别后得到语音转换数据,其中,语义数据语音转换数据为音节,即拼音,声学模型直接采用音节进行建模根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息。本实施例中,以用户输入的待识别连续语音为“刘奶奶拎牛奶”为例进行说明。表1为本发明实施例一提供的一种前向搜索结果汇总表。表1如图4和表1所示,由于用户发音和环境噪声等的因素的影响,将待识别连续语音的当前帧进行特征提取和声学模型识别后得到语音转换数据具有多种可能性,如当前帧为表1中的语音帧1,即用户输入待识别连续语音的当前帧为“刘”,其发音的为“liú”的可能性为0.8,“niú”的可能性为0.2,从而在如图4所示的连续语音识别结构进行搜索,得到当前帧的状态节点为状态节点1、状态节点6和状态节点9,分别对应输出标签为“刘”、“牛”和“榴”。本实施例中,以路径累积代价是搜索路径的总权重的负对数值和声学模型概率负对数值的和为例进行说明。需要说明的是,由于图4所示的语音连续结构只展示了部分结构,为了方便理解,以下提供的路径累积代价的计算中少了先验概率的考虑,即“刘”、“牛”或“榴”在整个语音连续结构中出现的概率,但在实际应用中该先验概率需要被考虑。如待识别连续语音的当前帧为表1中的语音帧2,生成的当前帧的状态节点路径信息如表2所示:表2路径编号当前帧状态节点搜索路径输出词串路径累积代价120、1、2刘奶0.795882115、6、7、11牛奶1.193823114、6、7、11牛奶1.193824118、9、10、11榴莲3.49485其中,参考表1和图4,表2中的搜索路径1的路径累积代价计算公式为:-lg(0.25)-lg(0.8)-lg(0.8)=0.79588,搜索路径2和搜索路径3的路径累积代价计算公式均为:-lg(0.8)-lg(0.2)-lg(0.8)-lg(0.5)=1.19382,搜索路径4的路径累积代价计算公式为:-lg(0.8)-lg(0.8)-lg(0.005)-lg(0.1)=3.49485。搜索路径2和搜索路径3均包含语义结束状态节点11,且二者的路径累积代价相同,搜索结果是搜索路径2或3上对应的输出标签组成的输出词串为“牛奶”,将“牛奶”输出到智能便携终端的显示屏进行显示。又如待识别连续语音的当前帧为表1中的语音帧3,生成的当前帧的状态节点路径信息如表3所示:表3路径编号当前帧状态节点搜索路径输出词串路径累积代价1110、1、2、3、11刘奶奶1.7166992115、6、7、3、11牛奶奶1.8716013114、6、7、3、11牛奶奶1.871601其中,参考表1和图4,表3中的搜索路径1的路径累积代价计算公式为:-lg(0.25)-lg(0.8)-lg(0.8)-lg(0.8)-lg(0.6)-lg(0.25)=1.716699。搜索路径2和搜索路径3的路径累积代价计算公式均为:-lg(0.8)-lg(0.2)-lg(0.7)-lg(0.8)-lg(0.6)-lg(0.25)=1.871601。搜索路径1、搜索路径2和搜索路径3均包含语义结束状态节点11,将语义结束状态节点11对应的搜索路径1、搜索路径2和搜索路径3按照路径累积代价进行排序,根据排序结果,搜索结果是搜索路径1上对应的输出标签组成的输出词串为“刘奶奶”,将智能便携终端的显示屏上显示的“牛奶”更新为“刘奶奶”。再如待识别连续语音的当前帧为表1中的语音帧6,生成的当前帧的状态节点路径信息如表4所示:表4路径编号当前帧状态节点搜索路径输出词串路径累积代价1110、1、2、3、4、6、7、11刘奶奶拎牛奶2.6060282110、1、2、3、5、6、7、11刘奶奶淋牛奶2.6571813114、6、7、3、4、6、7、11牛奶奶拎牛奶3.3049984114、6、7、3、5、6、7、11牛奶奶淋牛奶3.356151其中,参考表1和图4,对表4中的各条搜索路径按照上述的计算方法得到表4中的路径累积代价。由表4可得搜索路径1的路径累积代价最小,搜索结果是搜索路径1上对应的输出标签组成的输出词串为“刘奶奶拎牛奶”,将智能便携终端的显示屏上显示的“刘奶奶”更新为“刘奶奶拎牛奶”。本实施例的技术方案,通过构建包括加权有限状态转换器wfst和语义结束状态节点的连续语音识别结构,并将待识别连续语音的当前帧进行预处理得到语音转换数据后,在连续语音识别结构中进行前向搜索,生成包括当前帧的状态节点、搜索路径和路径累积代价的状态节点路径信息,若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序后,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果,解决语音输入结束状态节点判断复杂和识别过程复杂的问题,实现结构改造简单和搜索效率高的技术效果。在上述技术方案的基础上,在步骤120后,包括:若状态节点路径信息中包括语义结束状态节点,则从语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。其中,以前向搜索是维特比算法为例进行说明,维特比算法是一种动态规划算法,该算法遍历连续语音识别结构并保留每一帧连续语音在某个状态的最优路径得分,具体的,基于动态规划的维特比算法在每帧连续语音对应的各个状态,计算各个搜索路径的路径累积代价,保留代价最小的n条搜索路径,并在每个当前帧状态节点记录下相应的状态信息以便最后反向获取词串,其中n为正整数,可根据实际需求进行设置。也就是说通过前向搜索可得到多条以语义结束状态节点作为终点的搜索路径,从语义结束状态节点进行回溯,即可得到路径累积代价最小的搜索路径作为最佳搜索路径,即搜索结果是最佳搜索路径上对应的输出标签组成的输出词串,本实施例对输出方式不作限定,示例性的,可以是输出到智能便携终端的显示屏、以文件形式存储在智能便携终端本地或者通过通信装置发送到云端处理平台。实施例二图5为本发明实施例二提供的一种连续语音识别方法的流程图。本实施例是在上述实施例一的基础上进行具体化。参考图5,本实施例提供的连续语音识别方法具体包括:步骤210、将待识别连续语音的当前帧进行预处理得到语音转换数据。其中,本实施例中以待识别连续语音的来源为用户直接录入为例进行详述,语音转换数据是音节,预处理的方式是经过特征提取和声学模型识别,其中声学模型的建模单元为音节,即对应汉字的拼音。步骤220、根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息。步骤230、若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息。其中,语义结束状态节点在识别过程中作为断句依据,以语义结束状态节点作为搜索路径的终点,并将搜索路径上的所有输出标签组成的词串,即识别结果输出,从而实现更新实时的识别结果,从而在保证实时识别的基础上,增加识别的准确性。由于每一条有输出结果的搜索路径都是以语义结束状态节点为终点,所以将语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息,可以直接根据该语义结束状态节点路径信息得到最佳搜索路径,从而达到实时更新识别结果,并提高搜索效率的技术效果。需要说明的是,若当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为待识别连续语音的最后一帧,则将待识别连续语音的下一帧作为当前帧,并继续前向搜索,即继续执行步骤210-步骤230。另外,如果当前帧为待识别连续语音的最后一帧,则继续执行步骤240。步骤240、获取语义结束状态节点路径信息中的所有状态节点路径信息。其中,语义结束状态节点路径信息中的所有状态节点路径信息所包含的状态节点都是语义结束状态节点,也就是说,语义结束状态节点路径信息中所有搜索路径均是以语义结束状态节点作为终点。步骤250、从语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。其中,以前向搜索是维特比算法为例进行说明,维特比算法是一种动态规划算法,该算法遍历连续语音识别结构并保留每一帧连续语音在某个状态的最优路径得分,具体的,基于动态规划的维特比算法在每帧连续语音对应的各个状态,计算各个搜索路径的路径累积代价,保留代价最小的n条搜索路径,并在每个当前帧状态节点记录下相应的状态信息以便最后反向获取词串,其中n为正整数,可根据实际需求进行设置。也就是说通过前向搜索可得到多条以语义结束状态节点作为终点的搜索路径,从语义结束状态节点进行回溯,即可得到路径累积代价最小的搜索路径作为最佳搜索路径,即搜索结果是最佳搜索路径上对应的输出标签组成的输出词串,本实施例对输出方式不作限定,示例性的,可以是输出到智能便携终端的显示屏、以文件形式存储在智能便携终端本地或者通过通信装置发送到云端处理平台。需要注意的是,本实施例中只是选取以搜索路径的终点是语义结束状态节点为例进行说明。但在待识别连续语音识别过程中,特别是在将语音转换数据在连续语义识别结构中进行前向搜索时,随时可以通过回溯搜索路径得到搜索结果。由于语义结束状态节点是最佳搜索路径的终点,通过从语义结束状态节点进行回溯的方法,可以快速从所有可能的搜索路径中得到最佳搜索路径,而且无需总是如现有技术一般每次都需要判断每一个帧语义结束的概率。示例性的,以下将对本实施例提供的连续语音识别方法的实施过程进行详述。如图4所示,为了便于说明,本实施例以wfst是由语言模型及字典建立的一个识别网络为例进行详述,连续语音识别结构中的前向边上的输入标签为音节,即拼音,输出标签为拼音对应的汉字,权重为状态转移的概率,状态节点11为语义结束状态节点。通过智能便携终端设置的麦克风录入用户待识别连续语音,并进行实时的连续语音识别。将待识别连续语音的当前帧进行特征提取和声学模型识别后得到语音转换数据,其中,语义数据语音转换数据为音节,即拼音。根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息。本实施例中,以用户输入的待识别连续语音为“刘奶奶拎牛奶”为例进行说明。结合图4提供的连续语音识别结构和表1提供的声学模型概率,得到表2、表3和表4,若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息,即将表2、表3和表4中含有语义结束状态节点的搜索路径进行汇总,得到表5。表5根据表5的搜索路径及其对应的路径累积代价从语义结束状态节点回溯得到最佳搜索路径为表5中的搜索路径7,其路径累积代价为2.60602827,即搜索结果是搜索路径7对应的输出词串“刘奶奶拎牛奶”,在智能便携终端的显示屏上显示“刘奶奶拎牛奶”。本实施例的技术方案,通过将待识别连续语音的当前帧进行预处理得到语音转换数据后,在连续语音识别结构中进行前向搜索,生成包括当前帧的状态节点、搜索路径和路径累积代价的状态节点路径信息,若状态节点路径信息中包括语义结束状态节点,则将含有语义结束状态节点的状态节点路径信息保存到语义结束状态节点路径信息,根据语义结束状态节点路径信息,从语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果,解决语音输入结束状态节点判断复杂和识别过程复杂的问题,实现通过语义结束状态节点路径信息即可直接搜索出最优搜索路径的技术效果。在上述实施例的基础上,步骤220进一步细化为步骤221-步骤223:步骤221、根据语音转换数据在连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个状态节点对应的搜索路径。其中,前向搜索是指将当前帧的语音转换数据输入上述连续语音识别结构中,对比语音转换数据与当前状态节点上的前向边对应的输入标签,找出所有可能的转移状态节点,需要注意的是,在可能的转移状态节点对应有输入标签为空操作的前向边的情况下,还应将该前向边指向的状态节点作为可能的转移状态节点,如本实施例中的语义结束状态节点。通过前向搜索可以获得到当前帧为止的语音转换数据经过的搜索路径。当前帧的状态节点指的根据当前帧的语音转换数据进行前向搜索后得到的符合预设条件的可能转移状态节点,其中,预设条件为:前向边上的输入标签对应当前帧的语音转换数据,且前向边上的权重,即转移概率大于预设阈值,该预设阈值根据实际的语音识别需求进行设定,如基于准确率和识别效率的考虑,调整预设阈值。如图4所示的连续语音识别结构,若预设阈值设置为0.3,由于状态节点1到状态节点2的前向边权重为0.25,小于0.3,则该前向边不会被考虑,即搜索路径不包含状态节点1到状态节点2的路径。进一步的,还可以设置预设声学模型概率阈值,用于排除声学模型概率小于预设声学模型概率阈值的当前帧的语音转换数据,减少在连续语音识别结构中进行前向搜索的数据量,从而提高搜索速度。另外,搜索路径是指前向搜索过程中获得的到当前帧为止的语音转换数据经过的所有状态节点及其顺序。步骤222、根据各搜索路径计算各状态节点对应的路径累积代价。其中,路径累积代价是指到当前帧为止所经过的搜索路径所付出的代价。具体的,步骤222进一步细化为:累计各搜索路径经过的连续语音识别结构前向边上权重,并结合声学模型代价计算各状态节点对应的路径累积代价。其中,声学模型代价可以是声学模型概率的负对数值,本实施例对路径累积代价的计算方式不作限定,如,路径累积代价可以是搜索路径的总权重的负对数值和声学模型概率负对数值的和。又如,路径累积代价可以是搜索路径的总权重的负对数值和声学模型概率负对数值的加权和,其中加权和中的权重可以根据实际需求进行设定,如搜索路径的总权重的负对数值的权重为0.4,声学模型概率负对数值的权重为0.6。再如,对搜索路径还可以设置长词惩罚分数,即在上述路径累积代价计算方式的基础上加上长词惩罚分数,可以用于尽量避免因搜索路径太长而导致识别结果不准确的情况发生。步骤223、整合状态节点、状态节点对应的搜索路径和路径累积代价生成当前帧的状态节点路径信息。其中,状态节点路径信息可以被保存、更改和提取。本实施例对状态节点路径信息的保存形式不作限定,可以是用结构体、数组等形式保存在内存中,也可以是以文件形式进行本地保存,也可以上传到云端处理平台中。通过根据语音转换数据在连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个状态节点对应的搜索路径,并进一步计算各搜索路径对应的路径累积代价,从而生成含有状态节点、搜索路径和路径累积代价的状态节点路径信息,可以通过查表的形式方便获取最优搜索路径。另外需要说明的是,本实施例中例如步骤221-步骤223等可选步骤,不仅仅适用于本实施例,同样也适用于实施例一,可以与实施例一中的方案结合实现同样的技术效果。实施例三图6为本发明实施例三提供的一种连续语音识别装置的结构示意图,本实施例可适用于语音数据处理的情况,该装置可以由硬件和/或软件实现。本发明实施例所提供的一种连续语音识别装置可以执行本发明上述任一实施例所提供的连续语音识别方法。如图6所示,本实施例提供的连续语音识别装置具体结构如下:预处理模块310、状态节点路径信息生成模块320、搜索路径排序模块330和搜索结果输出模块340。预处理模块310,用于将待识别连续语音的当前帧进行预处理得到语音转换数据。状态节点路径信息生成模块320,用于根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;加权有限状态转换器wfst中的第一状态节点与语义结束状态节点之间设置有前向边;第一状态节点为加权有限状态转换器wfst中语义结束概率不为0的状态节点;前向边的权重值等于加权有限状态转换器wfst结构中状态节点对应的语义结束概率;状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价。搜索路径排序模块330,用于若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序。搜索结果输出模块340,用于根据按照路径累积代价进行排序的结果,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。本实施例的技术方案,通过构建包括加权有限状态转换器wfst和语义结束状态节点的连续语音识别结构,并将待识别连续语音的当前帧进行预处理得到语音转换数据后,在连续语音识别结构中进行前向搜索,生成包括当前帧的状态节点、搜索路径和路径累积代价的状态节点路径信息,若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序后,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果,解决语音输入结束状态节点判断复杂和识别过程复杂的问题,实现结构改造简单和搜索效率高的技术效果。在上述实施例的基础上,进一步优化,本实施例提供的状态节点路径信息生成模块320包括:前向搜索单元321、路径累积代价计算单元322和状态节点路径信息整合单元323。前向搜索单元321,用于根据语音转换数据在连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个状态节点对应的搜索路径。路径累积代价计算单元322,用于根据各搜索路径计算各状态节点对应的路径累积代价。状态节点路径信息整合单元323,用于整合状态节点、状态节点对应的搜索路径和路径累积代价生成当前帧的状态节点路径信息。在上述实施例的基础上,进一步优化,路径累积代价计算单元322包括:路径累积代价计算子单元3221,用于累计各搜索路径经过的连续语音识别结构前向边上权重,并结合声学模型代价计算各状态节点对应的路径累积代价。在上述实施例的基础上,进一步优化,连续语音识别装置还包括:跳转模块350,用于若当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为待识别连续语音的最后一帧,则将待识别连续语音的下一帧作为当前帧,并继续前向搜索。上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。实施例四图7为本发明实施例四提供的一种连续语音识别装置的结构示意图,本实施例可适用于语音数据处理的情况,该装置可以由硬件和/或软件实现。本发明实施例所提供的一种连续语音识别装置可以执行本发明上述任一实施例所提供的连续语音识别方法。如图7所示,本实施例提供的连续语音识别装置具体结构如下:预处理模块410、状态节点路径信息生成模块420、语义结束状态节点路径信息生成模块430、状态节点路径信息获取模块440和语义结束状态节点回溯模块450。预处理模块410,用于将待识别连续语音的当前帧进行预处理得到语音转换数据。状态节点路径信息生成模块420,用于根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;加权有限状态转换器wfst中的第一状态节点与语义结束状态节点之间设置有前向边;第一状态节点为加权有限状态转换器wfst中语义结束概率不为0的状态节点;前向边的权重值等于加权有限状态转换器wfst结构中状态节点对应的语义结束概率;状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价。语义结束状态节点路径信息生成模块430,用于若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息。状态节点路径信息获取模块440,用于获取语义结束状态节点路径信息中的所有状态节点路径信息。语义结束状态节点回溯模块450,用于从语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。本实施例的技术方案,通过将待识别连续语音的当前帧进行预处理得到语音转换数据后,在连续语音识别结构中进行前向搜索,生成包括当前帧的状态节点、搜索路径和路径累积代价的状态节点路径信息,若状态节点路径信息中包括语义结束状态节点,则将含有语义结束状态节点的状态节点路径信息保存到语义结束状态节点路径信息,根据语义结束状态节点路径信息,从语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果,解决语音输入结束状态节点判断复杂和识别过程复杂的问题,实现通过语义结束状态节点路径信息即可直接搜索出最优搜索路径的技术效果。在上述实施例的基础上,进一步优化,本实施例提供的状态节点路径信息生成模块420包括:前向搜索单元421、路径累积代价计算单元422和状态节点路径信息整合单元423。前向搜索单元421,用于根据语音转换数据在连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个状态节点对应的搜索路径。路径累积代价计算单元422,用于根据各搜索路径计算各状态节点对应的路径累积代价。状态节点路径信息整合单元423,用于整合状态节点、状态节点对应的搜索路径和路径累积代价生成当前帧的状态节点路径信息。在上述实施例的基础上,进一步优化,路径累积代价计算单元422包括:路径累积代价计算子单元4221,用于累计各搜索路径经过的连续语音识别结构前向边上权重,并结合声学模型代价计算各状态节点对应的路径累积代价。在上述实施例的基础上,进一步优化,连续语音识别装置还包括:跳转模块460,用于若当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为待识别连续语音的最后一帧,则将待识别连续语音的下一帧作为当前帧,并继续前向搜索。上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。实施例五图8为本发明实施例五提供的一种连续语音识别设备的结构示意图,如图8所示,该连续语音识别设备包括存储器510、显示屏520以及一个或多个处理器530、输入装置540、输出装置550以及通信装置560;该连续语音识别设备中处理器530的数量可以是一个或者多个,图8中以一个处理器530为例。该连续语音识别设备中存储器510的数量可以是一个或者多个,图8中以一个存储器510为例。该连续语音识别设备的处理器530、存储器510、显示屏520、输入装置540、输出装置550以及通信装置560可以通过总线或者其他方式连接,图8中以通过总线连接为例。实施例中,连续语音识别设备可以是电脑,手机,平板或服务器等。实施例中,以连续语音识别设备为手机或平板等智能便携终端为例进行描述。存储器510作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例所述的连续语音识别方法对应的程序指令/模块(例如,连续语音识别装置中的预处理模块310、状态节点路径信息生成模块320、搜索路径排序模块330和搜索结果输出模块340,又如,连续语音识别装置中的预处理模块410、状态节点路径信息生成模块420、语义结束状态节点路径信息生成模块430、状态节点路径信息获取模块440和语义结束状态节点回溯模块450)。存储器510可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器510可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器510可进一步包括相对于处理器530远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。显示屏520可以是液晶显示屏、等离子显示屏或者发光二极管显示屏。一般而言,显示屏520用于根据处理器530的指示显示数据。通信装置560,用于与其他设备建立通信连接,其可以是有线通信装置和/或无线通信装置。输入装置540可用于接收输入的数字或者字符信息,以及产生与连续语音识别设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置550可以包括扬声器等音频设备。需要说明的是,输入装置540和输出装置550的具体组成可以根据实际情况设定。处理器530通过运行存储在存储器510中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的连续语音识别方法。具体的,实施例中,处理器530执行存储器510中存储的一个或多个程序时,具体实现如下操作:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;加权有限状态转换器wfst中的第一状态节点与语义结束状态节点之间设置有前向边;第一状态节点为加权有限状态转换器wfst中语义结束概率不为0的状态节点;前向边的权重值等于加权有限状态转换器wfst结构中状态节点对应的语义结束概率;状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序;根据按照路径累积代价进行排序的结果,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。处理器530还可独立实现如下的操作:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;加权有限状态转换器wfst中的第一状态节点与语义结束状态节点之间设置有前向边;第一状态节点为加权有限状态转换器wfst中语义结束概率不为0的状态节点;前向边的权重值等于加权有限状态转换器wfst结构中状态节点对应的语义结束概率;状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息;获取语义结束状态节点路径信息中的所有状态节点路径信息;从语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。在上述实施例的基础上,处理器530还实现如下的操作:根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据语音转换数据在连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个状态节点对应的搜索路径;根据各搜索路径计算各状态节点对应的路径累积代价;整合状态节点、状态节点对应的搜索路径和路径累积代价生成当前帧的状态节点路径信息。在上述实施例的基础上,处理器530还实现如下的操作:根据各搜索路径计算各状态节点对应的路径累积代价,包括:累计各搜索路径经过的连续语音识别结构前向边上权重,并结合声学模型代价计算各状态节点对应的路径累积代价。在上述实施例的基础上,处理器530还实现如下的操作:在根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为所述待识别连续语音的最后一帧,则进行将所述待识别连续语音的下一帧作为当前帧继续前向搜索。上述提供的连续语音识别设备可用于执行上述任意实施例提供的连续语音识别方法,具备相应的功能和有益效果。实施例六本发明实施例六还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种连续语音识别方法,该方法包括:将待识别连续语音的当前帧进行预处理得到语音转换数据;根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,其中,连续语音识别结构包括加权有限状态转换器wfst和语义结束状态节点;加权有限状态转换器wfst中的第一状态节点与语义结束状态节点之间设置有前向边;第一状态节点为加权有限状态转换器wfst中语义结束概率不为0的状态节点;前向边的权重值等于加权有限状态转换器wfst结构中状态节点对应的语义结束概率;状态节点路径信息包括当前帧的状态节点、搜索路径和路径累积代价;若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的搜索路径按照路径累积代价进行排序;根据按照路径累积代价进行排序的结果,取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。可选的,根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息,包括:根据语音转换数据在连续语音识别结构中进行前向搜索,得到至少一个状态节点以及每个状态节点对应的搜索路径;根据各搜索路径计算各状态节点对应的路径累积代价;整合状态节点、状态节点对应的搜索路径和路径累积代价生成当前帧的状态节点路径信息。可选的,根据各搜索路径计算各状态节点对应的路径累积代价,包括:累计各搜索路径经过的连续语音识别结构前向边上权重,并结合声学模型代价计算各状态节点对应的路径累积代价。可选的,在根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若状态节点路径信息中包括语义结束状态节点,则将状态节点路径信息中语义结束状态节点对应的状态节点路径信息保存到语义结束状态节点路径信息;获取语义结束状态节点路径信息中的所有状态节点路径信息;从语义结束状态节点回溯取出路径累积代价最小的搜索路径作为最佳搜索路径,并输出最佳搜索路径的搜索结果。可选的,在根据语音转换数据在连续语音识别结构中进行前向搜索,生成当前帧的状态节点路径信息之后,还包括:若当前帧的状态节点路径信息中不包括语义结束状态节点,且当前帧不为待识别连续语音的最后一帧,则进行将待识别连续语音的下一帧作为当前帧,并继续前向搜索。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的连续语音识别方法中的相关操作。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述连续语音识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1